日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

文本摘要

更新時(shí)間:

文本摘要組件采用自動(dòng)文摘算法,基于TextRank模型,從原文獻(xiàn)中提取關(guān)鍵句子來(lái)生成一段簡(jiǎn)潔且連貫的短文,即文本摘要。該摘要能準(zhǔn)確全面地捕捉并反映出原文的中心思想。本文為您介紹文本摘要組件的配置方法。

使用限制

支持的計(jì)算引擎為MaxCompute。

使用說(shuō)明

您可以在文本摘要組件的上游接入句子拆分組件,將文本拆分成一句一行的形式。

組件配置

您可以使用以下任意一種方式,配置文本摘要組件參數(shù)。

方式一:可視化方式

Designer工作流頁(yè)面配置組件參數(shù)。

頁(yè)簽

參數(shù)

描述

字段設(shè)置

標(biāo)識(shí)文章ID的列名

輸入標(biāo)識(shí)文檔ID的列名。

句子列

可指定一列。

參數(shù)設(shè)置

輸出前的關(guān)鍵句個(gè)數(shù)

默認(rèn)是3。

句子相似度的計(jì)算方法

句子相似度計(jì)算方法:

  • Ics_sim

  • leveshtein_sim

  • ssk

  • cosine

匹配字符串的權(quán)重

句子相似度的計(jì)算方法取值ssk時(shí),該參數(shù)生效。默認(rèn)為0.5。

子串的長(zhǎng)度

句子相似度的計(jì)算方法取值ssk/cosine時(shí),該參數(shù)生效。默認(rèn)為2。

阻尼系數(shù)

默認(rèn)為0.85。

最大迭代次數(shù)

默認(rèn)為100。

收斂系數(shù)

默認(rèn)為0.000001。

執(zhí)行調(diào)優(yōu)

核心數(shù)

默認(rèn)自動(dòng)分配。

單個(gè)核心的內(nèi)存

默認(rèn)自動(dòng)分配。

方式二:PAI命令方式

使用PAI命令方式,配置該組件參數(shù)。您可以使用SQL腳本組件進(jìn)行PAI命令調(diào)用,詳情請(qǐng)參見(jiàn)SQL腳本

PAI -name TextSummarization
    -project algo_public
    -DinputTableName="test_input"
    -DoutputTableName="test_output"
    -DdocIdCol="doc_id"
    -DsentenceCol="sentence"
    -DtopN=2
    -Dlifecycle=30;

參數(shù)名稱(chēng)

是否必選

描述

默認(rèn)值

inputTableName

輸入表名。

無(wú)

inputTablePartitions

輸入表中指定參與計(jì)算的分區(qū)。

輸入表所有分區(qū)

outputTableName

輸出表名。

無(wú)

docIdCol

標(biāo)識(shí)文章ID的列名。

無(wú)

sentenceCol

句子列,僅可指定一列。

無(wú)

topN

輸出前幾個(gè)關(guān)鍵句。

3

similarityType

句子相似度計(jì)算方法:

  • Ics_sim

  • leveshtein_sim

  • ssk

  • cosine

lcs_sim

lambda

匹配字符串的權(quán)重,ssk中可用。

0.5

k

子串的長(zhǎng)度,sskcosine中可用。

2

dampingFactor

阻尼系數(shù)。

0.85

maxIter

最大迭代次數(shù)。

100

epsilon

收斂系數(shù)。

0.000001

lifecycle

輸入出表的生命周期。

無(wú)

coreNum

參與計(jì)算的核心數(shù)。

系統(tǒng)自動(dòng)分配

memSizePerCore

每個(gè)核心需要的內(nèi)存。

系統(tǒng)自動(dòng)分配

示例

  1. 準(zhǔn)備輸入表test_input,表內(nèi)容示例如下。

    您可以使用MaxCompute客戶(hù)端創(chuàng)建表,并使用Tunnel命令上傳數(shù)據(jù)。關(guān)于MaxCompute客戶(hù)端的安裝及配置請(qǐng)參見(jiàn)使用本地客戶(hù)端(odpscmd)連接,關(guān)于Tunnel命令使用詳情請(qǐng)參見(jiàn)Tunnel命令

    doc_id

    sentence

    1000897

    新冠肺炎疫情發(fā)生以來(lái),濫食野生動(dòng)物的突出問(wèn)題。由此給公共衛(wèi)生安全帶來(lái)的巨大隱患,引發(fā)社會(huì)廣泛關(guān)注。全國(guó)多地公安、林業(yè)以及市場(chǎng)監(jiān)管部門(mén)開(kāi)展相關(guān)專(zhuān)項(xiàng)行動(dòng),對(duì)非法獵捕、販賣(mài)、食用野生動(dòng)物進(jìn)行全鏈條打擊,效果顯著。執(zhí)法部門(mén)在打擊涉野生動(dòng)物違法犯罪活動(dòng)的過(guò)程中發(fā)現(xiàn),野味消費(fèi)群體龐大、盜獵利潤(rùn)驚人、鑒定難度大成本高等問(wèn)題,成為盜獵野生動(dòng)物黑色利益鏈條得以在地下運(yùn)轉(zhuǎn)的重要原因。

    其中:

    • doc_id:文章ID列。

    • sentence:句子列。

  2. 使用句子拆分組件,將sentence列的文本拆分成一句一行的形式,輸出表名test_output,表內(nèi)容如下表所示。具體操作,請(qǐng)參見(jiàn)句子拆分

    doc_id

    sentence

    1000897

    新冠肺炎疫情發(fā)生以來(lái),濫食野生動(dòng)物的突出問(wèn)題。

    1000897

    由此給公共衛(wèi)生安全帶來(lái)的巨大隱患,引發(fā)社會(huì)廣泛關(guān)注。

    1000897

    全國(guó)多地公安、林業(yè)以及市場(chǎng)監(jiān)管部門(mén)開(kāi)展相關(guān)專(zhuān)項(xiàng)行動(dòng),對(duì)非法獵捕、販賣(mài)、食用野生動(dòng)物進(jìn)行全鏈條打擊,效果顯著。

    1000897

    執(zhí)法部門(mén)在打擊涉野生動(dòng)物違法犯罪活動(dòng)的過(guò)程中發(fā)現(xiàn),野味消費(fèi)群體龐大、盜獵利潤(rùn)驚人、鑒定難度大成本高等問(wèn)題,成為盜獵野生動(dòng)物黑色利益鏈條得以在地下運(yùn)轉(zhuǎn)的重要原因。

  3. 執(zhí)行以下PAI命令,生成文本摘要。

    您可以使用SQL腳本執(zhí)行如下PAI命令,也可以使用ODPS SQL節(jié)點(diǎn)執(zhí)行如下PAI命令。

    PAI -name TextSummarization
        -project algo_public
        -DinputTableName="test_output"
        -DoutputTableName="test_output1"
        -DdocIdCol="doc_id"
        -DsentenceCol="sentence"
        -DtopN=2
        -Dlifecycle=30;

    輸出表為兩列,分別是doc_idabstract

    doc_id

    abstract

    1000897

    新冠肺炎疫情發(fā)生以來(lái),濫食野生動(dòng)物的突出問(wèn)題。 全國(guó)多地公安、林業(yè)以及市場(chǎng)監(jiān)管部門(mén)開(kāi)展相關(guān)專(zhuān)項(xiàng)行動(dòng),對(duì)非法獵捕、販賣(mài)、食用野生動(dòng)物進(jìn)行全鏈條打擊,效果顯著。

相關(guān)文檔

  • 使用句子拆分組件對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,將一段文本拆分成一句一行的形式。具體操作,請(qǐng)參見(jiàn)句子拆分

  • 關(guān)于Designer更詳細(xì)的內(nèi)容介紹,請(qǐng)參見(jiàn)Designer概述