NLP自學習平臺產品介紹。
產品概述
面向算法小白用戶的NLP行業自適應標注、訓練和服務平臺。該產品支持文本實體抽取、文本分類、關鍵短語抽取、情感分析、關系抽取、短文本匹配、商品評價解析等 NLP 定制化算法能力,用戶無需擁有豐富的算法背景,僅需標注或上傳適量文檔數據,即可通過平臺獲得優質的 NLP 算法模型。
教學視頻
功能介紹
NLP自學習平臺包含如下服務功能
基礎自學習模型:為用戶提供文本實體抽取、文本分類、關鍵短語抽取、文本關系抽取、短文本匹配、對話文本分類等自然語言算法能力的模型訓練。
模型名稱 | 模型說明 | 最大文本長度 |
指對文本按照內容類型進行分類,例如短信場景中,運營商根據短信文本內容判斷其對應的分類,例如涉黃、暴恐、涉政、廣告等。本平臺支持定制基于用戶自建分類體系的分類模型。 | / | |
抽取文本中具有特定意義的實體。例如合同審核場景中,需要抽取合同名稱、甲方、乙方、收款賬號等實體信息,用于快速將大量合同結構化,本平臺支持定制基于用戶自建實體類型的實體抽取模型。 | / | |
關鍵短語抽取 | 基于 textrank 算法,抽取關鍵詞及短語標簽。本項目類型無需上傳標注數據,算法將自動分析文本中的特征,抽取關鍵短語。同時,也可上傳自定義詞表以優化各自領域的關鍵短語抽取效果。 | 500個字符 |
抽取文本中的實體及對應的關系。例如人名與生日,機構與成立時間等,本平臺支持定制基于用戶自建關系體系的關系抽取模型。 | / | |
提供不同文本之間相似度的計算,并輸出一個介于0到1之間的分數,分數越大則文本之間的相似度越高。本平臺支持定制基于用戶自建數據集的短文本匹配模型。 | / | |
對兩句文本按照內容類型進行分類,同時支持單選和多選。典型應用場景:計算兩句話是否語義相等、計算問句和回答是否匹配、考慮上下文的單句分類等。 | / | |
對整個對話文本按照內容類型進行分類,同時支持單選和多選。典型應用場景:對話質檢、客戶意圖識別、電銷線索挖掘等。 | / |
行業場景自學習模型:為用戶提供情感分析、商品評價解析、簡歷抽取、招中標信息抽取等自然語言算法能力的模型訓練。
模型名稱 | 模型說明 | 最大文本長度 |
情感分析 | 分析并給出文本的情感正負傾向,本平臺支持定制基于用戶自建數據集的情感分析模型。 | / |
基于阿里電商平臺海量已標注數據,建立各行業定制模型,多維度分析商品評價文本。本平臺支持定制基于用戶自建評價維度的商品評價解析模型。 | 500個字符 | |
簡歷抽取 | 基于阿里內部海量已標注數據訓練的模型和規則引擎,實現高準確率的中英文簡歷抽取等27個中文常見字段和10個英文常見字段。若有其他自定義字段,可自行補充標注數據,定制訓練。 | / |
招中標信息抽取 | 智能化完成招標文件解析,自動化抽取招標金額、招標主體、標的等20+字段的抽取,輔助投標文件復查,提升中標率。 | / |
抽取合同中具有特定意義或關鍵的要素,支持格式:pdf(文字版)、word。標注數據越多,效果越佳。 | / |
應用算法自學習模型:合同抽取、司法裁判文書(事實認定)等自然語言算法能力的模型訓練。
模型名稱 | 模型說明 | 最大文本長度 |
抽取合同文本中的實體,內置20+個無需標注的實體標簽,模型訓練的數據標注成本低至原本的20%以下。 | / | |
抽取司法裁判文書中事實認定的實體,內置10+個無需標注的實體標簽,模型訓練的數據標注成本低至原本的50%以下。 | / |
預訓練模型(可直接調用):為用戶提供商品評價解析(電商/本地生活)、電銷場景對話(分類/風險/詐騙識別)、新聞分類、新聞事件抽取(英文)、情感分析(多語言)、裁判文書抽取等直接調用的訓練模型能力。
模型名稱 | 模型說明 | 最大文本長度 |
支持55種電商領域的行業和192個評價屬性,提供多維度商品評價文本分析。 | 500個字符 | |
支持美容美發美甲、餐飲美食2種本地生活領域的行業和11個評價屬性,提供多維度商品評價文本分析。 | 500個字符 | |
支持汽車領域68個評價屬性,提供多維度商品評價文本分析。 | 500個字符 | |
適用于分析用戶的購買動機、使用場景、功能需求、使用疑問等購買決策相關的信息,可以幫助改進產品、改善用戶體驗、細分人群畫像、針對性營銷投放等。 | 500個字符 | |
適用于分析用戶的購買動機、使用場景、功能需求、使用疑問等購買決策相關的信息,可以幫助改進產品、改善用戶體驗、細分人群畫像、針對性營銷投放等。 | 500個字符 | |
支持對招中標公告進行分類,目前支持“招標”、“中標”兩種類型。 | / | |
支持招中標信息里關于項目名稱、項目編號、招標人名稱、中標金額等13個字段的抽取。 | / | |
支持招標、中標單獨解析,對招標信息抽取22個字段。 | / | |
支持招標、中標單獨解析,對中標信息抽取29個字段。 | / | |
支持合同中的常見要素進行抽取,共支持26個通用要素字段。 | / | |
支持電商等行業的客服在線聊天場景,解析消費者說話內容,得到消費者意圖、情感、情緒等結果。 | / | |
適用于從文檔中抽取符合key : value模式的信息,支持簡歷、合同、報告等文檔。 | / | |
適用于電話銷售外呼場景,針對對話應用按照行業和場景進行分類,可應用于語音質檢。支持30+個行業和170+個場景。 | / | |
支持電銷場景對話客服質檢、直播場景主播監管等應用場景。 | / | |
適用于電銷人工外呼/智能外呼場景,識別用戶的意圖(反應)。 | / | |
支持姓名、聯系方式、學位、公司、職位等10個簡歷字段抽取,適用于英文簡歷。 | / | |
支持姓名、性別、年齡、學歷、工作單位等33個簡歷字段抽取,適用于中文簡歷。 | / | |
支持對英文新聞里事件的抽取,包含33個事件類別。 | / | |
支持電商場景的商品標題,預測所屬的類目,類目體系和淘寶等電商平臺的一致。 | / | |
適用于客服在線聊天場景,從對話中抽取出客服話術和用戶問題,用于熱點問題分析或構建客服話術庫。 | / | |
支持中文小說涉黃/色情內容識別,適用于小說內容監管場景。輸出涉黃的置信度和相關文本內容。 | 600個字符 | |
適用于針對電商場景的社交媒體(短文本),預測俄語文本所表達的情感,分為正,中,負,三種情感。 | / | |
適用于針對電商場景的社交媒體(短文本),預測英語文本所表達的情感,分為正,中,負,三種情感。 | / | |
適用于針對電商場景的社交媒體(短文本),預測西班牙語文本所表達的情感,分為正,中,負,三種情感。 | / | |
支持電銷、在線接待等應用場景,識別客戶或客服的情緒,支持8種常規情緒和3種業務場景常用情緒。 | 1000個字符 | |
支持對單個或多個新聞文本的分類。 | / | |
適用于直播場景,通過ASR語音轉文字,識別由于多人同時說話導致的文字可讀性不佳的問題。 | 600個字符 | |
支持10個案由的文書,解析得到38個字段。 | / | |
適用于針對文檔抽取關鍵詞或者摘要。 | 500個字符 | |
針對實際場景中常見的文本生成需求所設計,適用于生成文本摘要或者生成文章的標題。: | 500個字符 | |
適用于:給定商品和一些賣點詞,生成和賣點相關的商品文案描述。 | 500個字符 | |
適用于:給定一些天氣信息字段,生成車載開機歡迎語生成介紹。 | 500個字符 | |
支持中文文本輸入,輸出文本對應的向量表示。 | / |
產品優勢
易用:使用流程簡單,無需工程與算法背景。
快捷:全鏈路優化,平均訓練模型耗時<30分鐘。
專業:專業技術沉淀,500+標注數據時,模型準確率預計>85%。