日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

LLM-文本質量打分和語種識別(MaxCompute)

LLM-語種識別和過濾組件主要用于大語言模型(LLM)的文本數(shù)據(jù)預處理工作,識別文本的語種并計算得分,并可以根據(jù)語種和得分過濾樣本。

使用限制

僅支持MaxCompute計算引擎。

算法簡介

使用fasttext算法識別文本語種并計算置信度,目前支持識別176種語言。包括:

['af', 'als', 'am', 'an', 'ar', 'arz', 'as', 'ast', 'av', 'az', 'azb', 'ba', 'bar', 'bcl', 'be', 'bg', 'bh', 'bn', 'bo', 'bpy', 'br', 'bs', 'bxr', 'ca', 'cbk', 'ce', 'ceb', 'ckb', 'co', 'cs', 'cv', 'cy', 'da', 'de', 'diq', 'dsb', 'dty', 'dv', 'el', 'eml', 'en', 'eo', 'es', 'et', 'eu', 'fa', 'fi', 'fr', 'frr', 'fy', 'ga', 'gd', 'gl', 'gn', 'gom', 'gu', 'gv', 'he', 'hi', 'hif', 'hr', 'hsb', 'ht', 'hu', 'hy', 'ia', 'id', 'ie', 'ilo', 'io', 'is', 'it', 'ja', 'jbo', 'jv', 'ka', 'kk', 'km', 'kn', 'ko', 'krc', 'ku', 'kv', 'kw', 'ky', 'la', 'lb', 'lez', 'li', 'lmo', 'lo', 'lrc', 'lt', 'lv', 'mai', 'mg', 'mhr', 'min', 'mk', 'ml', 'mn', 'mr', 'mrj', 'ms', 'mt', 'mwl', 'my', 'myv', 'mzn', 'nah', 'nap', 'nds', 'ne', 'new', 'nl', 'nn', 'no', 'oc', 'or', 'os', 'pa', 'pam', 'pfl', 'pl', 'pms', 'pnb', 'ps', 'pt', 'qu', 'rm', 'ro', 'ru', 'rue', 'sa', 'sah', 'sc', 'scn', 'sco', 'sd', 'sh', 'si', 'sk', 'sl', 'so', 'sq', 'sr', 'su', 'sv', 'sw', 'ta', 'te', 'tg', 'th', 'tk', 'tl', 'tr', 'tt', 'tyv', 'ug', 'uk', 'ur', 'uz', 'vec', 'vep', 'vi', 'vls', 'vo', 'wa', 'war', 'wuu', 'xal', 'xmf', 'yi', 'yo', 'yue', 'zh']

可視化配置參數(shù)

您可以在Designer中,通過可視化的方式配置組件參數(shù)。

頁簽

參數(shù)

是否必選

描述

默認值

字段設置

選擇目標處理列

選擇要處理的列。

是否保存語種名稱和置信度

是否將語種名稱和置信度保存到輸出表中。如果勾選,則在輸出表中新增兩列用來存儲計算結果;否則不做存儲。

  • 語種名稱保存列名:保存語種名稱的列名,默認值為language_id。

  • 語種置信度保存列名:保存語種置信度的列名,默認值為language_score。

SQL腳本

where語句填寫,語種名稱默認保存到language_id列,置信度默認保存到language_score列,可根據(jù)這兩列的結果進行過濾。例如:where language_id = 'en' and language_score >= 0.8。如果保存語種結果并修改了列名,請根據(jù)修改后的列名填寫。

設置輸出表生命周期

正整數(shù),單位為天。默認28天,28天后該組件產生的臨時表被回收。

28

執(zhí)行調優(yōu)

每個實例的cpu數(shù)目

設定map task每個instanceCPU數(shù)目,取值范圍為[50,800]。

100

每個實例的memory大小,單位M

設定map task每個instancememory大小,單位為MB,取值范圍為[256,12288]。

1024

每個實例處理的數(shù)據(jù)大小,單位M

設定map task每個instance的最大處理數(shù)據(jù)量,用戶可以通過控制該變量,實現(xiàn)對map端輸入的控制。單位為MB,取值范圍為[1,Integer.MAX_VALUE]。

256

相關文檔

關于Designer組件更詳細的內容介紹,請參見Designer概述