語言模型定制
阿里云智能語音交互對某些場景(包括通用、教育、司法、醫療等)進行了大量語音識別訓練,提供了高準確率場景模型。當您的語音識別需求超出預設模型范疇,或是希望對現有的標準模型進行個性化定制時,可以通過自學習平臺的語言模型定制功能,根據自身業務相關的語料進行針對性訓練和優化,從而提升語音識別效果。
功能優勢
通過使用阿里云語音自學習工具,您可以在操作界面上傳訓練語料文本,并選擇對應領域的語言基礎模型,對訓練語料做模型訓練,從而有效提高該場景的語音識別率。尤其針對專有名詞和高頻詞匯,有較好的優化效果。
定制語言模型的方式
您可以通過定制語言模型或使用POP API創建自學習模型方式定制語言模型。具體區別如下:
使用控制臺訓練和管理自學習模型,可以界面化操作,在控制臺項目功能配置中,單擊切換場景,選擇自學習模型,發布上線后將與Appkey綁定,無需在代碼中設置。
使用POP API創建的自學習模型,需要您在客戶端代碼中調用SDK的接口設置自學習模型的ID后,該模型才能生效。
應用舉例
下載訓練語料,以阿里巴巴簡介為例:
一九九九年九月,馬云帶領下的十八位創始人在杭州的公寓中正式成立了阿里巴巴集團,集團的首個網站是英文全球批發貿易市場阿里巴巴。
一九九九年十月,阿里巴巴集團從數家投資機構融資五百萬美元。
一九九九年十月,阿里巴巴集團從數家投資機構融資五百萬美元。
二零零零年一月,阿里巴巴集團從軟銀等數家投資機構融資兩千萬美元。
二零零零年一月,阿里巴巴集團從軟銀等數家投資機構融資兩千萬美元。
二零零零年九月,阿里巴巴集團舉辦首屆西湖論劍,匯聚互聯網界的商業和意見領袖討論業界重要議題。
如果“融資”、“互聯網”等是業務關鍵詞,可以將含這兩個詞的句子多復制幾遍。
訓練流程如下:
選擇基礎模型:采用通用模型(具體選擇何種模型可根據實際場景進行調整)。
訓練語料采集:請將如上訓練語料保存至訓練文本。如果需要自行設置訓練語料,請根據標點做裁剪,將每句話保存為訓練文本中的一行。
操作訓練模型:通過自學習服務提交語料并訓練之后,采用訓練出的模型,能夠有效識別出訓練語料中的詞匯,獲得理想的識別效果。