日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

<output id="ar7j8"><strike id="ar7j8"></strike></output>

<output id="ar7j8"></output>

備案控制臺

輸入文檔關鍵字查找

LLM-計數過濾組件主要用于大語言模型（LLM）的文本數據預處理工作，根據字母、數字、分隔符的個數過濾樣本。

使用限制

僅支持MaxCompute計算引擎。

算法簡介

LLM-計數過濾組件支持以下功能：

根據數字字符個數或比例過濾
統計文本中的數字字符的個數，根據閾值過濾樣本。或者根據字符個數占總文本長度的比例過濾樣本。如果指定文本分隔符，則根據分隔符拆分文本，并以單詞為單位進行統計。
根據字母字符個數或比例過濾
統計文本中的字母字符的個數，根據閾值過濾樣本。或者根據字符個數占總文本長度的比例過濾樣本。如果指定文本分隔符，則根據分隔符拆分文本，并以單詞為單位進行統計。
根據數字和字母字符個數或比例過濾
統計文本中是數字或者字母的字符個數，根據閾值過濾樣本。或者根據字符個數占總文本長度的比例過濾樣本。如果指定文本分隔符，則根據分隔符拆分文本，并以單詞為單位進行統計。
根據字母字符占文本token比例過濾
統計文本中所有字母字符的個數，并使用pythia-6.9b-deduped模型將文本切分為token，計算字母字符和token個數的比值。根據比值過濾樣本。
根據分隔符個數過濾
統計文本中的分隔符個數，根據閾值過濾樣本。

可視化配置參數

您可以在Designer中，通過可視化的方式配置組件參數。

頁簽	參數	是否必選	描述	默認值
字段設置	選擇目標處理列	是	選擇要處理的列，支持選擇多個列。	無
	文本分隔符	否	默認空格，以空格分隔文本。根據分隔符將文本拆分成單詞列表，以單詞為單位統計是否為數字或者字母。如果置空，則不做拆分，以字符為單位進行統計。分隔符需用半角雙引號（""）括起來。	默認空格。
	是否根據數字字符個數或比例過濾	否	數字字符個數或比例最小值：數字字符個數或占文本長度比例小于該值將被過濾掉。如果值在0.0~1.0之間，則按照個數占總長度的比例進行計算；如果值大于1，則按照個數計算。數字字符個數或比例最大值：數字字符個數或占文本長度比例大于該值將被過濾掉。如果值在0.0~1.0之間，則按照個數占總長度的比例進行計算；如果值大于1，則按照個數進行計算。	無
	是否根據字母字符個數或比例過濾	否	字母字符個數或比例最小值：字母字符個數或占文本長度比例小于該值將被過濾掉。如果值在0.0~1.0之間，則按照個數占總長度的比例進行計算；如果值大于1，則按照個數進行計算。字母字符個數或比例最大值：字母字符個數或占文本長度比例大于該值將被過濾掉。如果值在0.0~1.0之間，則按照個數占總長度的比例進行計算；如果值大于1，則按照個數計算。	無
	是否根據數字和字母字符個數或比例過濾	否	數字和字母字符個數或比例最小值：數字和字母字符占文本長度比例小于該值將被過濾掉。如果值在0.0~1.0之間，則按照個數占總長度的比例進行計算；如果值大于1，則按照個數進行計算。數字和字母字符個數或比例最大值：數字和字母字符占文本長度比例大于該值將被過濾掉。如果值在0.0~1.0之間，則按照個數占總長度的比例進行計算；如果值大于1，則按照個數進行計算。	無
	是否根據字母字符占文本token比例過濾	否	字母占文本token比例最小值：字母占文本token比例小于該值將被過濾掉。統計文本中的所有字母字符個數，并使用pythia-6.9b-deduped模型將文本切分為token，計算字母個數和token個數的比值。字母占文本token比例最大值：字母占文本token比例大于該值將被過濾掉。統計文本中的所有字母字符個數，并使用pythia-6.9b-deduped模型將文本切分為token，計算字母個數和token個數的比值。	無
	是否根據分隔符個數過濾	否	分隔符個數最小值：文本中的分隔符個數小于該值將被過濾掉。僅支持按個數過濾。分隔符個數最大值：文本中的分隔符個數大于該值將被過濾掉。僅支持按個數過濾。	無
	設置輸出表生命周期	否	正整數，單位為天。默認28天，28天后該組件產生的臨時表被回收。	28
執行調優	每個實例的cpu數目	否	設定map task每個instance的CPU數目，取值范圍為[50,800]。	100
	每個實例的memory大小，單位M	否	設定map task每個instance的memory大小，單位為MB，取值范圍為[256,12288]。	1024
	每個實例處理的數據大小，單位M	否	設定map task每個instance的最大處理數據量，用戶可以通過控制該變量，實現對map端輸入的控制。單位為MB，取值范圍為[1,Integer.MAX_VALUE]。	256

相關文檔

關于Designer組件更詳細的內容介紹，請參見Designer概述。

上一篇：LLM-Copyright信息移除（MaxCompute）下一篇：LLM-長度過濾（MaxCompute）

文檔內容是否對您有幫助？