句子拆分
本文為您介紹Designer提供的句子拆分算法組件。
將一段文本按標(biāo)點(diǎn)進(jìn)行句子拆分。該組件主要用于文本摘要前的預(yù)處理,將一段文本拆分成一句一行的形式。
組件配置
您可以使用以下任意一種方式,配置句子拆分組件參數(shù)。
方式一:可視化方式
在Designer工作流頁(yè)面配置組件參數(shù)。
頁(yè)簽 | 參數(shù) | 描述 |
字段設(shè)置 | 標(biāo)識(shí)文章ID的列名 | 輸入標(biāo)識(shí)文章ID的列名 |
標(biāo)示文章內(nèi)容的列名 | 輸入標(biāo)示文章內(nèi)容的列名 | |
句子的間隔字符集合 | 默認(rèn)“。!?” | |
執(zhí)行調(diào)優(yōu) | 核心數(shù) | 默認(rèn)自動(dòng)分配 |
每個(gè)核心的內(nèi)容 | 默認(rèn)自動(dòng)分配 |
方式二:PAI命令方式
使用PAI命令方式,配置該組件參數(shù)。您可以使用SQL腳本組件進(jìn)行PAI命令調(diào)用,詳情請(qǐng)參見(jiàn)SQL腳本。
PAI -name SplitSentences
-project algo_public
-DinputTableName="test_input"
-DoutputTableName="test_output"
-DdocIdCol="doc_id"
-DdocContent="content"
-Dlifecycle=30
參數(shù)名稱 | 是否必選 | 描述 | 默認(rèn)值 |
inputTableName | 是 | 輸入表名 | 無(wú) |
inputTablePartitions | 否 | 輸入表中指定參與計(jì)算的分區(qū) | 輸入表的所有分區(qū) |
outputTableName | 是 | 輸出表名 | 無(wú) |
docIdCol | 是 | 標(biāo)識(shí)文章ID的列名 | 無(wú) |
docContent | 是 | 標(biāo)識(shí)文章內(nèi)容的列名,僅可指定一列。 | 無(wú) |
delimiter | 否 | 句子的間隔字符集合 | “。???” |
lifecycle | 否 | 輸入出表的生命周期 | 無(wú) |
coreNum | 否 | 參與計(jì)算的核心數(shù) | 系統(tǒng)自動(dòng)計(jì)算 |
memSizePerCore | 否 | 每個(gè)核心需要的內(nèi)存 | 系統(tǒng)自動(dòng)計(jì)算 |
示例
輸出表為兩列,分別是doc_id和sentence。
doc_id | sentence |
1000894 | 早在2008年,上交所便發(fā)布了上市公司社會(huì)責(zé)任披露相關(guān)指引,強(qiáng)制要求三類公司披露社會(huì)責(zé)任報(bào)告,同時(shí)鼓勵(lì)其他有條件的上市公司進(jìn)行自愿披露。 |
1000894 | 統(tǒng)計(jì)顯示,2012年,滬市上市公司共計(jì)379家披露社會(huì)責(zé)任報(bào)告,包括強(qiáng)制披露公司305家和自愿披露公司74家,合計(jì)占滬市全部上市公司的40%。 |