亚洲欧美激情国产区,亚洲中文字幕码在线电影,为您精心严选五月天色婷婷

LLM數(shù)據(jù)處理算法提供了對數(shù)據(jù)樣本進行編輯和轉(zhuǎn)換、過濾低質(zhì)量樣本、識別和刪除重復樣本等功能。您可以根據(jù)實際需求組合不同的算法，從而過濾出合適的數(shù)據(jù)并生成符合要求的文本，方便為后續(xù)的LLM訓練提供優(yōu)質(zhì)的數(shù)據(jù)。本文以開源RedPajama Wikipedia中的少量數(shù)據(jù)為例，為您介紹如何使用PAI提供的大模型數(shù)據(jù)處理組件，對Wikipedia數(shù)據(jù)進行數(shù)據(jù)清洗和處理。

數(shù)據(jù)集說明

本文Designer中“LLM大語言模型數(shù)據(jù)處理-Wikipedia (web text數(shù)據(jù)）”預置模板用的數(shù)據(jù)集為開源項目RedPajama的原始數(shù)據(jù)中抽取的5000個樣本數(shù)據(jù)。

創(chuàng)建并運行工作流

進入Designer頁面。
1. 登錄PAI控制臺。
2. 在頂部左上角根據(jù)實際情況選擇地域。
3. 在左側(cè)導航欄選擇工作空間列表，單擊指定工作空間名稱，進入對應(yīng)工作空間。
4. 在左側(cè)導航欄選擇模型開發(fā)與訓練 > 可視化建模（Designer），進入Designer頁面。
創(chuàng)建工作流。
1. 在預置模板頁簽下，選擇業(yè)務(wù)領(lǐng)域 > LLM 大語言模型，單擊LLM大語言模型數(shù)據(jù)處理-Wikipedia (web text數(shù)據(jù)）模板卡片上的創(chuàng)建。
2. 配置工作流參數(shù)（或保持默認），單擊確定。
3. 在工作流列表，選擇已創(chuàng)建的工作流，單擊進入工作流。

工作流說明：

工作流中關(guān)鍵算法組件說明：

LLM-敏感信息打碼（MaxCompute）-1
將“text”字段中的敏感信息打碼。例如：
- 將郵箱地址字符替換成[EMAIL]。
- 將手機電話號碼替換成[TELEPHONE]或[MOBILEPHONE]。
- 將身份證號碼替換成IDNUM。
LLM-特殊內(nèi)容移除（MaxCompute）-1
將“text”字段中的URL鏈接刪除。
LLM-文本標準化（MaxCompute）-1
將“text”字段中的文本進行Unicode標準化處理；將繁體轉(zhuǎn)簡體。
LLM-計數(shù)過濾（MaxCompute）-1
將“text”字段中不符合數(shù)字和字母字符個數(shù)或占比的樣本去除。wiki數(shù)據(jù)集中大部分字符都由字母和數(shù)字組成，通過該組件可以去除部分臟數(shù)據(jù)。
LLM-長度過濾（MaxCompute）-1
根據(jù)“text”字段的平均長度進行樣本過濾。平均長度基于換行符\n分割樣本。
LLM-N-Gram重復比率過濾（MaxCompute）-1
根據(jù)“text”字段的字符級N-Gram重復比率進行樣本過濾，即將文本里的內(nèi)容按照字符進行大小為N的滑動窗口操作，形成了長度為N的片段序列。每一個片段稱為gram，對所有gram的出現(xiàn)次數(shù)進行統(tǒng)計。最后統(tǒng)計頻次大于1的gram的頻次總和 / 所有gram的頻次總和兩者比率作為重復比率進行樣本過濾。
LLM-敏感詞過濾（MaxCompute）-1
使用系統(tǒng)預置敏感詞文件過濾“text”字段中包含敏感詞的樣本。
LLM-語種識別和過濾（MaxCompute）-1
計算“text”字段文本的置信度，根據(jù)設(shè)置的置信度閾值過濾樣本。
LLM-長度過濾（MaxCompute）-2
根據(jù)“text”字段的最大行長度進行樣本過濾。最大行長度基于換行符\n分割樣本。
LLM-困惑度過濾（MaxCompute）-1
計算“text”字段文本的困惑度，根據(jù)設(shè)置的困惑度閾值過濾樣本。
LLM-特殊字符占比過濾（MaxCompute）-1
將“text”字段中不符合特殊字符占比的樣本去除。
LLM-長度過濾（MaxCompute）-3
根據(jù)“text”字段的長度進行樣本過濾。
LLM-分詞（MaxCompute）-1
將“text”字段的文本進行分詞處理，并將結(jié)果保存至新列。
LLM-長度過濾（MaxCompute）-4
根據(jù)分隔符" "（空格）將“text”字段樣本切分成單詞列表，根據(jù)切分后的列表長度過濾樣本，即根據(jù)單詞個數(shù)過濾樣本。
LLM-N-Gram重復比率過濾（MaxCompute）-2
根據(jù)“text”字段的詞語級N-Gram重復比率（會先將所有單詞轉(zhuǎn)成小寫格式再計算重復度）進行樣本過濾，即將文本里的內(nèi)容按照詞語進行大小為N的滑動窗口操作，形成了長度為N的片段序列。每一個片段稱為gram，對所有gram的出現(xiàn)次數(shù)進行統(tǒng)計。最后統(tǒng)計頻次大于1的gram的頻次總和 / 所有gram的頻次總和兩者比率作為重復比率進行樣本過濾。
LLM-文章相似度去重（MaxCompute）-1
根據(jù)設(shè)置的Jaccard相似度和Levenshtein距離閾值去除相似的樣本。

運行工作流。
運行結(jié)束后，右鍵單擊寫數(shù)據(jù)表-1組件，選擇查看數(shù)據(jù) > 輸出，查看經(jīng)過上述所有組件處理后的樣本。

日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

LLM大語言模型數(shù)據(jù)處理-Wikipedia（web text數(shù)據(jù)）

數(shù)據(jù)集說明

創(chuàng)建并運行工作流

相關(guān)參考