日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

LLM-刪除LaTeX文檔頭(MaxCompute)

更新時(shí)間:

LLM-刪除LaTeX文檔頭組件主要用于大語(yǔ)言模型(LLM)的文本數(shù)據(jù)預(yù)處理工作,適用于TEX文檔格式數(shù)據(jù)。主要功能是找到第一個(gè)匹配<section-type>[optional-args]{name}章節(jié)格式的字符串,并將其之前的所有內(nèi)容刪除,保留第一個(gè)匹配到章節(jié)后的所有內(nèi)容,包括該章節(jié)標(biāo)題。

支持的計(jì)算資源

MaxCompute

算法說(shuō)明

定義LaTeX格式文本章節(jié)的正則表達(dá)式為:r'^(.*?)(\\\bchapter\b\*?(?:\[(.*?)\])?\{(.*?)\}|\\\bpart\b\*?(?:\[(.*?)\])?\{(.*?)\}|\\\bsection\b\*?(?:\[(.*?)\])?\{(.*?)\}|\\\bsubsection\b\*?(?:\[(.*?)\])?\{(.*?)\}|\\\bsubsubsection\b\*?(?:\[(.*?)\])?\{(.*?)\}|\\\bparagraph\b\*?(?:\[(.*?)\])?\{(.*?)\}|\\\bsubparagraph\b\*?(?:\[(.*?)\])?\{(.*?)\})'(多個(gè)匹配字段用“|”分隔)。

定位到滿足上述正則表達(dá)式的第一個(gè)字符串,將其之前的所有內(nèi)容刪除,保留第一個(gè)匹配到章節(jié)后的所有內(nèi)容,包括該章節(jié)標(biāo)題。示例如下:

處理前

image

處理后

image

配置組件

Designer工作流頁(yè)面添加LLM-刪除LaTeX文檔頭組件,并在界面右側(cè)配置相關(guān)參數(shù):

參數(shù)類型

參數(shù)

描述

字段設(shè)置

選擇目標(biāo)處理列

選擇要處理的列,支持多選。

是否刪除沒(méi)有匹配到章節(jié)格式的樣本

如果勾選此選項(xiàng),如果樣本沒(méi)有匹配到任何章節(jié)格式,則刪除該樣本。

設(shè)置輸出表生命周期

正整數(shù),單位為天。默認(rèn)28天,28天后該組件產(chǎn)生的臨時(shí)表被回收。

執(zhí)行調(diào)優(yōu)

每個(gè)實(shí)例的cpu數(shù)目

設(shè)定map task每個(gè)instanceCPU數(shù)目,取值范圍:50~800,默認(rèn)值:100。

每個(gè)實(shí)例的memory大小,單位M

設(shè)定map task每個(gè)instancememory大小,取值范圍:256~12288,默認(rèn)值:1024,單位:MB。

每個(gè)實(shí)例處理的數(shù)據(jù)大小,單位M

設(shè)定map task每個(gè)instance的最大處理數(shù)據(jù)量,取值范圍:1~Integer.MAX_VALUE,默認(rèn)值:256,單位:MB。

您可以通過(guò)控制這個(gè)變量,從而達(dá)到對(duì)map端輸入的控制。