久久久久青草线蕉亚洲,午夜性色在线观看福利,免费视频一区二区三区四区

文本摘要組件采用自動(dòng)文摘算法，基于TextRank模型，從原文獻(xiàn)中提取關(guān)鍵句子來(lái)生成一段簡(jiǎn)潔且連貫的短文，即文本摘要。該摘要能準(zhǔn)確全面地捕捉并反映出原文的中心思想。本文為您介紹文本摘要組件的配置方法。

使用限制

支持的計(jì)算引擎為MaxCompute。

使用說(shuō)明

您可以在文本摘要組件的上游接入句子拆分組件，將文本拆分成一句一行的形式。

組件配置

您可以使用以下任意一種方式，配置文本摘要組件參數(shù)。

方式一：可視化方式

在Designer工作流頁(yè)面配置組件參數(shù)。

頁(yè)簽	參數(shù)	描述
字段設(shè)置	標(biāo)識(shí)文章ID的列名	輸入標(biāo)識(shí)文檔ID的列名。
字段設(shè)置	句子列	可指定一列。
參數(shù)設(shè)置	輸出前的關(guān)鍵句個(gè)數(shù)	默認(rèn)是3。
	句子相似度的計(jì)算方法	句子相似度計(jì)算方法： Ics_sim leveshtein_sim ssk cosine
	匹配字符串的權(quán)重	句子相似度的計(jì)算方法取值ssk時(shí)，該參數(shù)生效。默認(rèn)為0.5。
	子串的長(zhǎng)度	句子相似度的計(jì)算方法取值ssk/cosine時(shí)，該參數(shù)生效。默認(rèn)為2。
	阻尼系數(shù)	默認(rèn)為0.85。
	最大迭代次數(shù)	默認(rèn)為100。
	收斂系數(shù)	默認(rèn)為0.000001。
執(zhí)行調(diào)優(yōu)	核心數(shù)	默認(rèn)自動(dòng)分配。
執(zhí)行調(diào)優(yōu)	單個(gè)核心的內(nèi)存	默認(rèn)自動(dòng)分配。

方式二：PAI命令方式

使用PAI命令方式，配置該組件參數(shù)。您可以使用SQL腳本組件進(jìn)行PAI命令調(diào)用，詳情請(qǐng)參見(jiàn)SQL腳本。

PAI -name TextSummarization
    -project algo_public
    -DinputTableName="test_input"
    -DoutputTableName="test_output"
    -DdocIdCol="doc_id"
    -DsentenceCol="sentence"
    -DtopN=2
    -Dlifecycle=30;

參數(shù)名稱(chēng)	是否必選	描述	默認(rèn)值
inputTableName	是	輸入表名。	無(wú)
inputTablePartitions	否	輸入表中指定參與計(jì)算的分區(qū)。	輸入表所有分區(qū)
outputTableName	是	輸出表名。	無(wú)
docIdCol	是	標(biāo)識(shí)文章ID的列名。	無(wú)
sentenceCol	是	句子列，僅可指定一列。	無(wú)
topN	否	輸出前幾個(gè)關(guān)鍵句。	3
similarityType	否	句子相似度計(jì)算方法： Ics_sim leveshtein_sim ssk cosine	lcs_sim
lambda	否	匹配字符串的權(quán)重，ssk中可用。	0.5
k	否	子串的長(zhǎng)度，ssk和cosine中可用。	2
dampingFactor	否	阻尼系數(shù)。	0.85
maxIter	否	最大迭代次數(shù)。	100
epsilon	否	收斂系數(shù)。	0.000001
lifecycle	否	輸入出表的生命周期。	無(wú)
coreNum	否	參與計(jì)算的核心數(shù)。	系統(tǒng)自動(dòng)分配
memSizePerCore	否	每個(gè)核心需要的內(nèi)存。	系統(tǒng)自動(dòng)分配

示例

準(zhǔn)備輸入表test_input，表內(nèi)容示例如下。

您可以使用MaxCompute客戶(hù)端創(chuàng)建表，并使用Tunnel命令上傳數(shù)據(jù)。關(guān)于MaxCompute客戶(hù)端的安裝及配置請(qǐng)參見(jiàn)使用本地客戶(hù)端（odpscmd）連接，關(guān)于Tunnel命令使用詳情請(qǐng)參見(jiàn)Tunnel命令。

doc_id

sentence

1000897

新冠肺炎疫情發(fā)生以來(lái)，濫食野生動(dòng)物的突出問(wèn)題。由此給公共衛(wèi)生安全帶來(lái)的巨大隱患，引發(fā)社會(huì)廣泛關(guān)注。全國(guó)多地公安、林業(yè)以及市場(chǎng)監(jiān)管部門(mén)開(kāi)展相關(guān)專(zhuān)項(xiàng)行動(dòng)，對(duì)非法獵捕、販賣(mài)、食用野生動(dòng)物進(jìn)行全鏈條打擊，效果顯著。執(zhí)法部門(mén)在打擊涉野生動(dòng)物違法犯罪活動(dòng)的過(guò)程中發(fā)現(xiàn)，野味消費(fèi)群體龐大、盜獵利潤(rùn)驚人、鑒定難度大成本高等問(wèn)題，成為盜獵野生動(dòng)物黑色利益鏈條得以在地下運(yùn)轉(zhuǎn)的重要原因。

其中：

doc_id：文章ID列。
sentence：句子列。

使用句子拆分組件，將sentence列的文本拆分成一句一行的形式，輸出表名test_output，表內(nèi)容如下表所示。具體操作，請(qǐng)參見(jiàn)句子拆分。

doc_id	sentence
1000897	新冠肺炎疫情發(fā)生以來(lái)，濫食野生動(dòng)物的突出問(wèn)題。
1000897	由此給公共衛(wèi)生安全帶來(lái)的巨大隱患，引發(fā)社會(huì)廣泛關(guān)注。
1000897	全國(guó)多地公安、林業(yè)以及市場(chǎng)監(jiān)管部門(mén)開(kāi)展相關(guān)專(zhuān)項(xiàng)行動(dòng)，對(duì)非法獵捕、販賣(mài)、食用野生動(dòng)物進(jìn)行全鏈條打擊，效果顯著。
1000897	執(zhí)法部門(mén)在打擊涉野生動(dòng)物違法犯罪活動(dòng)的過(guò)程中發(fā)現(xiàn)，野味消費(fèi)群體龐大、盜獵利潤(rùn)驚人、鑒定難度大成本高等問(wèn)題，成為盜獵野生動(dòng)物黑色利益鏈條得以在地下運(yùn)轉(zhuǎn)的重要原因。

執(zhí)行以下PAI命令，生成文本摘要。

您可以使用SQL腳本執(zhí)行如下PAI命令，也可以使用ODPS SQL節(jié)點(diǎn)執(zhí)行如下PAI命令。

PAI -name TextSummarization
    -project algo_public
    -DinputTableName="test_output"
    -DoutputTableName="test_output1"
    -DdocIdCol="doc_id"
    -DsentenceCol="sentence"
    -DtopN=2
    -Dlifecycle=30;

輸出表為兩列，分別是doc_id和abstract。

doc_id	abstract
1000897	新冠肺炎疫情發(fā)生以來(lái)，濫食野生動(dòng)物的突出問(wèn)題。全國(guó)多地公安、林業(yè)以及市場(chǎng)監(jiān)管部門(mén)開(kāi)展相關(guān)專(zhuān)項(xiàng)行動(dòng)，對(duì)非法獵捕、販賣(mài)、食用野生動(dòng)物進(jìn)行全鏈條打擊，效果顯著。

日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

文本摘要

使用限制

使用說(shuō)明

組件配置

方式一：可視化方式

方式二：PAI命令方式

示例

相關(guān)文檔