日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

句子拆分

更新時(shí)間:

本文為您介紹Designer提供的句子拆分算法組件。

將一段文本按標(biāo)點(diǎn)進(jìn)行句子拆分。該組件主要用于文本摘要前的預(yù)處理,將一段文本拆分成一句一行的形式。

組件配置

您可以使用以下任意一種方式,配置句子拆分組件參數(shù)。

方式一:可視化方式

Designer工作流頁(yè)面配置組件參數(shù)。

頁(yè)簽

參數(shù)

描述

字段設(shè)置

標(biāo)識(shí)文章ID的列名

輸入標(biāo)識(shí)文章ID的列名

標(biāo)示文章內(nèi)容的列名

輸入標(biāo)示文章內(nèi)容的列名

句子的間隔字符集合

默認(rèn)“。!?”

執(zhí)行調(diào)優(yōu)

核心數(shù)

默認(rèn)自動(dòng)分配

每個(gè)核心的內(nèi)容

默認(rèn)自動(dòng)分配

方式二:PAI命令方式

使用PAI命令方式,配置該組件參數(shù)。您可以使用SQL腳本組件進(jìn)行PAI命令調(diào)用,詳情請(qǐng)參見(jiàn)SQL腳本。

PAI -name SplitSentences    
    -project algo_public    
    -DinputTableName="test_input"    
    -DoutputTableName="test_output"    
    -DdocIdCol="doc_id"    
    -DdocContent="content"    
    -Dlifecycle=30

參數(shù)名稱

是否必選

描述

默認(rèn)值

inputTableName

輸入表名

無(wú)

inputTablePartitions

輸入表中指定參與計(jì)算的分區(qū)

輸入表的所有分區(qū)

outputTableName

輸出表名

無(wú)

docIdCol

標(biāo)識(shí)文章ID的列名

無(wú)

docContent

標(biāo)識(shí)文章內(nèi)容的列名,僅可指定一列。

無(wú)

delimiter

句子的間隔字符集合

“。???”

lifecycle

輸入出表的生命周期

無(wú)

coreNum

參與計(jì)算的核心數(shù)

系統(tǒng)自動(dòng)計(jì)算

memSizePerCore

每個(gè)核心需要的內(nèi)存

系統(tǒng)自動(dòng)計(jì)算

示例

輸出表為兩列,分別是doc_idsentence。

doc_id

sentence

1000894

早在2008年,上交所便發(fā)布了上市公司社會(huì)責(zé)任披露相關(guān)指引,強(qiáng)制要求三類公司披露社會(huì)責(zé)任報(bào)告,同時(shí)鼓勵(lì)其他有條件的上市公司進(jìn)行自愿披露。

1000894

統(tǒng)計(jì)顯示,2012年,滬市上市公司共計(jì)379家披露社會(huì)責(zé)任報(bào)告,包括強(qiáng)制披露公司305家和自愿披露公司74家,合計(jì)占滬市全部上市公司的40%。