国产综合日韩另类一区二区,91自拍视频在线观看,无码免费毛片手机在线

日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

文檔

輸入文檔關(guān)鍵字查找

本文為您介紹Designer提供的句子拆分算法組件。

將一段文本按標(biāo)點(diǎn)進(jìn)行句子拆分。該組件主要用于文本摘要前的預(yù)處理，將一段文本拆分成一句一行的形式。

組件配置

您可以使用以下任意一種方式，配置句子拆分組件參數(shù)。

方式一：可視化方式

在Designer工作流頁(yè)面配置組件參數(shù)。

頁(yè)簽	參數(shù)	描述
字段設(shè)置	標(biāo)識(shí)文章ID的列名	輸入標(biāo)識(shí)文章ID的列名
	標(biāo)示文章內(nèi)容的列名	輸入標(biāo)示文章內(nèi)容的列名
	句子的間隔字符集合	默認(rèn)“。！？”
執(zhí)行調(diào)優(yōu)	核心數(shù)	默認(rèn)自動(dòng)分配
執(zhí)行調(diào)優(yōu)	每個(gè)核心的內(nèi)容	默認(rèn)自動(dòng)分配

方式二：PAI命令方式

使用PAI命令方式，配置該組件參數(shù)。您可以使用SQL腳本組件進(jìn)行PAI命令調(diào)用，詳情請(qǐng)參見(jiàn)SQL腳本。

PAI -name SplitSentences    
    -project algo_public    
    -DinputTableName="test_input"    
    -DoutputTableName="test_output"    
    -DdocIdCol="doc_id"    
    -DdocContent="content"    
    -Dlifecycle=30

參數(shù)名稱	是否必選	描述	默認(rèn)值
inputTableName	是	輸入表名	無(wú)
inputTablePartitions	否	輸入表中指定參與計(jì)算的分區(qū)	輸入表的所有分區(qū)
outputTableName	是	輸出表名	無(wú)
docIdCol	是	標(biāo)識(shí)文章ID的列名	無(wú)
docContent	是	標(biāo)識(shí)文章內(nèi)容的列名，僅可指定一列。	無(wú)
delimiter	否	句子的間隔字符集合	“。??？”
lifecycle	否	輸入出表的生命周期	無(wú)
coreNum	否	參與計(jì)算的核心數(shù)	系統(tǒng)自動(dòng)計(jì)算
memSizePerCore	否	每個(gè)核心需要的內(nèi)存	系統(tǒng)自動(dòng)計(jì)算

示例

輸出表為兩列，分別是doc_id和sentence。

doc_id	sentence
1000894	早在2008年，上交所便發(fā)布了上市公司社會(huì)責(zé)任披露相關(guān)指引，強(qiáng)制要求三類公司披露社會(huì)責(zé)任報(bào)告，同時(shí)鼓勵(lì)其他有條件的上市公司進(jìn)行自愿披露。
1000894	統(tǒng)計(jì)顯示，2012年，滬市上市公司共計(jì)379家披露社會(huì)責(zé)任報(bào)告，包括強(qiáng)制披露公司305家和自愿披露公司74家，合計(jì)占滬市全部上市公司的40%。

上一篇：關(guān)鍵詞抽取下一篇：語(yǔ)義向量距離

文檔內(nèi)容是否對(duì)您有幫助？