日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

LLM-特殊內(nèi)容移除(DLC)

更新時(shí)間:

LLM-特殊內(nèi)容移除(DLC)組件主要用于去除文本中的URL鏈接,以及去除HTML格式字符并解析出HTML文本。輸入的OSS數(shù)據(jù)文件(JSONL格式,示例)需符合:每一行是一個(gè)合法的JSON對(duì)象,文件由多行JSON對(duì)象組成,整個(gè)文件本身不是合法的JSON對(duì)象。

支持的計(jì)算資源

DLC

算法說明

LLM-特殊內(nèi)容移除組件支持以下功能:

  • 去除URL鏈接

    刪除文本中匹配正則表達(dá)式r'(https?|http)?:\/\/[\w\.\/\?\=\&\%\-\_]+'的字符。

  • 去除HTML格式字符并解析出HTML文本

    將文本中的'<li>'替換成'\n*''<ol>'替換成'\n*',并刪除'</li>''</ol>'字符。最后解析HTML文本并返回。

例如去除文章中的URL鏈接:

處理前

image

處理后

image

配置組件

Designer工作流頁面添加LLM-特殊內(nèi)容移除(DLC)組件,并在界面右側(cè)配置相關(guān)參數(shù):

參數(shù)類型

參數(shù)

是否必選

描述

默認(rèn)值

字段設(shè)置

目標(biāo)處理字段

要處理的字段名稱。

是否去除URL鏈接

是否去除URL鏈接。

選中

是否去除html格式字符并解析出html文本

是否去除HTML格式字符并解析出HTML文本。

未選中

數(shù)據(jù)輸出OSS目錄

處理后數(shù)據(jù)的OSS存儲(chǔ)目錄。如果為空,使用工作空間默認(rèn)路徑。

執(zhí)行調(diào)優(yōu)

多進(jìn)程個(gè)數(shù)

設(shè)置進(jìn)程數(shù)。

8

選擇資源組

公共資源組

選擇節(jié)點(diǎn)規(guī)格(CPUGPU實(shí)例規(guī)格)、節(jié)點(diǎn)數(shù)量、專有網(wǎng)絡(luò)。

專有資源組

選擇CPU核數(shù)、內(nèi)存、共享內(nèi)存、GPU卡數(shù)、節(jié)點(diǎn)數(shù)量。

最大運(yùn)行時(shí)長(zhǎng)

組件最大運(yùn)行時(shí)長(zhǎng),超過這個(gè)時(shí)間,作業(yè)會(huì)被kill。