文本摘要
文本摘要組件采用自動(dòng)文摘算法,基于TextRank模型,從原文獻(xiàn)中提取關(guān)鍵句子來(lái)生成一段簡(jiǎn)潔且連貫的短文,即文本摘要。該摘要能準(zhǔn)確全面地捕捉并反映出原文的中心思想。本文為您介紹文本摘要組件的配置方法。
使用限制
支持的計(jì)算引擎為MaxCompute。
使用說(shuō)明
您可以在文本摘要組件的上游接入句子拆分組件,將文本拆分成一句一行的形式。
組件配置
您可以使用以下任意一種方式,配置文本摘要組件參數(shù)。
方式一:可視化方式
在Designer工作流頁(yè)面配置組件參數(shù)。
頁(yè)簽 | 參數(shù) | 描述 |
字段設(shè)置 | 標(biāo)識(shí)文章ID的列名 | 輸入標(biāo)識(shí)文檔ID的列名。 |
句子列 | 可指定一列。 | |
參數(shù)設(shè)置 | 輸出前的關(guān)鍵句個(gè)數(shù) | 默認(rèn)是3。 |
句子相似度的計(jì)算方法 | 句子相似度計(jì)算方法:
| |
匹配字符串的權(quán)重 | 句子相似度的計(jì)算方法取值ssk時(shí),該參數(shù)生效。默認(rèn)為0.5。 | |
子串的長(zhǎng)度 | 句子相似度的計(jì)算方法取值ssk/cosine時(shí),該參數(shù)生效。默認(rèn)為2。 | |
阻尼系數(shù) | 默認(rèn)為0.85。 | |
最大迭代次數(shù) | 默認(rèn)為100。 | |
收斂系數(shù) | 默認(rèn)為0.000001。 | |
執(zhí)行調(diào)優(yōu) | 核心數(shù) | 默認(rèn)自動(dòng)分配。 |
單個(gè)核心的內(nèi)存 | 默認(rèn)自動(dòng)分配。 |
方式二:PAI命令方式
使用PAI命令方式,配置該組件參數(shù)。您可以使用SQL腳本組件進(jìn)行PAI命令調(diào)用,詳情請(qǐng)參見(jiàn)SQL腳本。
PAI -name TextSummarization
-project algo_public
-DinputTableName="test_input"
-DoutputTableName="test_output"
-DdocIdCol="doc_id"
-DsentenceCol="sentence"
-DtopN=2
-Dlifecycle=30;
參數(shù)名稱(chēng) | 是否必選 | 描述 | 默認(rèn)值 |
inputTableName | 是 | 輸入表名。 | 無(wú) |
inputTablePartitions | 否 | 輸入表中指定參與計(jì)算的分區(qū)。 | 輸入表所有分區(qū) |
outputTableName | 是 | 輸出表名。 | 無(wú) |
docIdCol | 是 | 標(biāo)識(shí)文章ID的列名。 | 無(wú) |
sentenceCol | 是 | 句子列,僅可指定一列。 | 無(wú) |
topN | 否 | 輸出前幾個(gè)關(guān)鍵句。 | 3 |
similarityType | 否 | 句子相似度計(jì)算方法:
| lcs_sim |
lambda | 否 | 匹配字符串的權(quán)重,ssk中可用。 | 0.5 |
k | 否 | 子串的長(zhǎng)度,ssk和cosine中可用。 | 2 |
dampingFactor | 否 | 阻尼系數(shù)。 | 0.85 |
maxIter | 否 | 最大迭代次數(shù)。 | 100 |
epsilon | 否 | 收斂系數(shù)。 | 0.000001 |
lifecycle | 否 | 輸入出表的生命周期。 | 無(wú) |
coreNum | 否 | 參與計(jì)算的核心數(shù)。 | 系統(tǒng)自動(dòng)分配 |
memSizePerCore | 否 | 每個(gè)核心需要的內(nèi)存。 | 系統(tǒng)自動(dòng)分配 |
示例
準(zhǔn)備輸入表test_input,表內(nèi)容示例如下。
您可以使用MaxCompute客戶(hù)端創(chuàng)建表,并使用Tunnel命令上傳數(shù)據(jù)。關(guān)于MaxCompute客戶(hù)端的安裝及配置請(qǐng)參見(jiàn)使用本地客戶(hù)端(odpscmd)連接,關(guān)于Tunnel命令使用詳情請(qǐng)參見(jiàn)Tunnel命令。
doc_id
sentence
1000897
新冠肺炎疫情發(fā)生以來(lái),濫食野生動(dòng)物的突出問(wèn)題。由此給公共衛(wèi)生安全帶來(lái)的巨大隱患,引發(fā)社會(huì)廣泛關(guān)注。全國(guó)多地公安、林業(yè)以及市場(chǎng)監(jiān)管部門(mén)開(kāi)展相關(guān)專(zhuān)項(xiàng)行動(dòng),對(duì)非法獵捕、販賣(mài)、食用野生動(dòng)物進(jìn)行全鏈條打擊,效果顯著。執(zhí)法部門(mén)在打擊涉野生動(dòng)物違法犯罪活動(dòng)的過(guò)程中發(fā)現(xiàn),野味消費(fèi)群體龐大、盜獵利潤(rùn)驚人、鑒定難度大成本高等問(wèn)題,成為盜獵野生動(dòng)物黑色利益鏈條得以在地下運(yùn)轉(zhuǎn)的重要原因。
其中:
doc_id:文章ID列。
sentence:句子列。
使用句子拆分組件,將sentence列的文本拆分成一句一行的形式,輸出表名test_output,表內(nèi)容如下表所示。具體操作,請(qǐng)參見(jiàn)句子拆分。
doc_id
sentence
1000897
新冠肺炎疫情發(fā)生以來(lái),濫食野生動(dòng)物的突出問(wèn)題。
1000897
由此給公共衛(wèi)生安全帶來(lái)的巨大隱患,引發(fā)社會(huì)廣泛關(guān)注。
1000897
全國(guó)多地公安、林業(yè)以及市場(chǎng)監(jiān)管部門(mén)開(kāi)展相關(guān)專(zhuān)項(xiàng)行動(dòng),對(duì)非法獵捕、販賣(mài)、食用野生動(dòng)物進(jìn)行全鏈條打擊,效果顯著。
1000897
執(zhí)法部門(mén)在打擊涉野生動(dòng)物違法犯罪活動(dòng)的過(guò)程中發(fā)現(xiàn),野味消費(fèi)群體龐大、盜獵利潤(rùn)驚人、鑒定難度大成本高等問(wèn)題,成為盜獵野生動(dòng)物黑色利益鏈條得以在地下運(yùn)轉(zhuǎn)的重要原因。
執(zhí)行以下PAI命令,生成文本摘要。
您可以使用SQL腳本執(zhí)行如下PAI命令,也可以使用ODPS SQL節(jié)點(diǎn)執(zhí)行如下PAI命令。
PAI -name TextSummarization -project algo_public -DinputTableName="test_output" -DoutputTableName="test_output1" -DdocIdCol="doc_id" -DsentenceCol="sentence" -DtopN=2 -Dlifecycle=30;
輸出表為兩列,分別是doc_id和abstract。
doc_id
abstract
1000897
新冠肺炎疫情發(fā)生以來(lái),濫食野生動(dòng)物的突出問(wèn)題。 全國(guó)多地公安、林業(yè)以及市場(chǎng)監(jiān)管部門(mén)開(kāi)展相關(guān)專(zhuān)項(xiàng)行動(dòng),對(duì)非法獵捕、販賣(mài)、食用野生動(dòng)物進(jìn)行全鏈條打擊,效果顯著。
相關(guān)文檔
使用句子拆分組件對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,將一段文本拆分成一句一行的形式。具體操作,請(qǐng)參見(jiàn)句子拆分。
關(guān)于Designer更詳細(xì)的內(nèi)容介紹,請(qǐng)參見(jiàn)Designer概述。