LLM-刪除LaTeX文檔頭(MaxCompute)
LLM-刪除LaTeX文檔頭組件主要用于大語(yǔ)言模型(LLM)的文本數(shù)據(jù)預(yù)處理工作,適用于TEX文檔格式數(shù)據(jù)。主要功能是找到第一個(gè)匹配<section-type>[optional-args]{name}章節(jié)格式的字符串,并將其之前的所有內(nèi)容刪除,保留第一個(gè)匹配到章節(jié)后的所有內(nèi)容,包括該章節(jié)標(biāo)題。
支持的計(jì)算資源
算法說(shuō)明
定義LaTeX格式文本章節(jié)的正則表達(dá)式為:r'^(.*?)(\\\bchapter\b\*?(?:\[(.*?)\])?\{(.*?)\}|\\\bpart\b\*?(?:\[(.*?)\])?\{(.*?)\}|\\\bsection\b\*?(?:\[(.*?)\])?\{(.*?)\}|\\\bsubsection\b\*?(?:\[(.*?)\])?\{(.*?)\}|\\\bsubsubsection\b\*?(?:\[(.*?)\])?\{(.*?)\}|\\\bparagraph\b\*?(?:\[(.*?)\])?\{(.*?)\}|\\\bsubparagraph\b\*?(?:\[(.*?)\])?\{(.*?)\})'
(多個(gè)匹配字段用“|”分隔)。
定位到滿足上述正則表達(dá)式的第一個(gè)字符串,將其之前的所有內(nèi)容刪除,保留第一個(gè)匹配到章節(jié)后的所有內(nèi)容,包括該章節(jié)標(biāo)題。示例如下:
處理前 | 處理后 |
配置組件
在Designer工作流頁(yè)面添加LLM-刪除LaTeX文檔頭組件,并在界面右側(cè)配置相關(guān)參數(shù):
參數(shù)類型 | 參數(shù) | 描述 |
字段設(shè)置 | 選擇目標(biāo)處理列 | 選擇要處理的列,支持多選。 |
是否刪除沒(méi)有匹配到章節(jié)格式的樣本 | 如果勾選此選項(xiàng),如果樣本沒(méi)有匹配到任何章節(jié)格式,則刪除該樣本。 | |
設(shè)置輸出表生命周期 | 正整數(shù),單位為天。默認(rèn)28天,28天后該組件產(chǎn)生的臨時(shí)表被回收。 | |
執(zhí)行調(diào)優(yōu) | 每個(gè)實(shí)例的cpu數(shù)目 | 設(shè)定map task每個(gè)instance的CPU數(shù)目,取值范圍:50~800,默認(rèn)值:100。 |
每個(gè)實(shí)例的memory大小,單位M | 設(shè)定map task每個(gè)instance的memory大小,取值范圍:256~12288,默認(rèn)值:1024,單位:MB。 | |
每個(gè)實(shí)例處理的數(shù)據(jù)大小,單位M | 設(shè)定map task每個(gè)instance的最大處理數(shù)據(jù)量,取值范圍:1~Integer.MAX_VALUE,默認(rèn)值:256,單位:MB。 您可以通過(guò)控制這個(gè)變量,從而達(dá)到對(duì)map端輸入的控制。 |