本文介紹了標注任務的新建方式、完成標注任務的三大步驟和標注任務的數據統計。
功能概述
標注任務是指通過人工確認機器人給出的回答的準確性,并可借助維度模板自定義評價標準和維度,對機器人對話效果進行標注與優化的工作。首先由系統基于測試環境下的機器人知識,根據人工上傳測評集(包含測試問句)批量得到機器人答案,再由人工完成包括標注、優化和回歸測評三大步驟。標注任務功能一方面可以明確當前機器人具體的使用效果,從而確保C端用戶的良好體驗;另一方面,它還為機器人的優化提供了重要的數據參考。
新建標注任務
登錄智能對話機器人管理控制臺,進入具體機器人空間,選擇標注中心>標注任務進入標注任務管理界面。
單擊新建標注任務,進入新建標注任務窗口,填寫相關數據。
任務名稱:即標注任務名字,系統默認任務名稱為:標注任務-當前時間。
標注維度:系統內置改寫滿意度、召回滿意度、生成滿意度、問答滿意度、答案滿意度5個維度模板供用戶選擇。
服務模擬:啟用后,調用API插件返回的值并非取自接口的數據,而是直接返回API插件的mock值。更多詳細內容請參見API插件。
數據來源:即測評任務需測評的用戶問句的數據來源,包括線上日志、線下導入、黃金測評集三種來源。
線上日志導入:即選擇用戶與機器人對話數據作為標注數據來源,可分為測試窗和C端。測試窗是指在產品測試窗內發生的與機器人的對話數據;C端是指線上真實終端用戶與機器人發生的對話數據。此外,可進一步根據以下條件來篩選需標注的數據:
用戶滿意度:可選全部、點贊、點踩。點贊和點踩為終端用戶在與機器人對話時對機器人答案的評價。
機器人回復類型:提供全部和僅無答案兩個選項供用戶選擇。
全部:在標注機器人問答的時候篩選線上的全部問答數據。
僅無答案:在標注機器人問答的時候篩選線上僅無答案回復的問答數據。
是否轉人工:會話session中有一輪轉人工即會篩選出來標注,可選全部、是、否。
過濾已標注會話:開啟后,已被標注過的會話不會進入本次標注任務,反之被標注過的會話則會進入本次標注任務。
時間范圍:即與機器人對話發生的時間范圍。
樣本抽樣:包含全量標注、比例抽樣和自定義量三種模式。
全量標注:拉取全量的線上會話數據進行標注。
比例抽樣:根據線上會話數據的量,抽取一定的比例來進行標注。
自定義量:根據自定義的數量,從線上會話數據隨機抽取對應量的數據。
線下導入:即從本地導入待測評數據。
說明導入測評數據文件擴展名需為xls或xlsx,最大支持20MB;上傳數據需要符合既定的格式,具體格式可參考黃金測評集規范模板。
黃金測評集:即從黃金測評集中導入待測評數據。可選擇全量標注、比例抽樣和自定義量。有關黃金測評集的詳細介紹請參見黃金測評集。
全量標注:拉取已選擇的黃金測評集中的全量數據進行標注;
比例抽樣:根據已選擇的黃金測評集中數據的量,抽取一定的比例來進行標注。
自定義量:根據自定義的數量,從已選擇的黃金測評集中隨機抽取對應量的數據。
單擊確定,即可完成標注任務創建。
單擊已有標注任務右側操作欄的導出、刪除,即可完成相關操作。
完成標注任務
標注任務的完成分為三個主要步驟:標注、優化(可跳過)、回歸測評。
步驟一:標注
在標注評價維度模板基礎上,對機器人與用戶問答進行標注評價。創建完標注任務后,第一步就是需要完成標注。具體的標注步驟如下:
登錄智能對話機器人管理控制臺,進入具體機器人空間,選擇標注中心>標注任務進入標注任務管理界面。
在標注任務管理界面,單擊標注任務右側標注,單擊操作,即可進入標注任務界面。
說明標注任務創建完成后,系統需要一定時間生成機器人答案(標注測評數據越多,系統生成答案耗時越長)。系統答案未生成前,標注任務狀態為執行中,對應操作按鈕為置灰不可操作狀態;系統答案生成完成后,標注任務狀態為標注中,此時方可進行標注操作。
在標注任務界面,根據實際業務需求完成會話打標。當前標注界面可分為三個模塊,每個模塊的功能及含義如下:
會話信息模塊:包含期望命中的答案、期望命中的問答類型、期望命中的文件名稱、命中的問答類型、命中的文件名稱、問題類型。
若當前標注任務數據來源為黃金測評集或本地上傳導入,且測評集中有關問題都有期望答案,則此處期望命中答案展示對應內容,可作為對機器人答案測評依據;若測評集中未填寫期望答案,則此處期望命中答案展示內容為空。
若當前標注任務數據來源為線上會話日志,則此處期望命中答案為空。
機器人與用戶問答模塊:展示用戶問題及對應機器人回復答案。在有關問答區域單擊,即可在右側標注區對該問答進行打標。
標注模塊:除了可以按照在創建標注任務時選擇的標注任務側測評維度模板進行標注外,還可以添加額外的會話標注,并填寫期望的答案。
說明若當前標注任務數據來源為黃金測評集或本地上傳導入,但對應測評集中未填寫期望答案,或當前標注任務數據來源為線上會話日志,則在“會話信息模塊”無期望答案有關信息。為方便后續優化與回歸測試,可在“標注區模塊”手動填寫期望答案。
步驟二:優化(此步驟可跳過)
即根據標注結果,進行機器人問答干預或知識優化。具體操作步驟如下:
完成標注任務后,基于標注結果,按需選擇優化范圍后,即可進行優化操作;
單擊優化右側操作,進入優化界面,根據實際業務需求完成優化操作。
會話信息模塊:包含期望命中的答案、期望命中的問答類型、期望命中的文件名稱、命中的問答類型、命中的文件名稱。
若當前標注任務數據來源為黃金測評集或本地上傳導入,且測評集中有關問句都有期望答案,則此處期望命中答案展示對應內容,對應可作為對機器人答案優化依據;若測評集中未填寫期望答案,則此處期望命中答案展示內容為空。
若當前標注任務數據來源為線上會話日志,則此處期望命中答案為空。
機器人與用戶問答模塊:展示用戶問句及機器人回復答案。在有關問答區域單擊鼠標,即可在右側優化操作區對該問答進行優化。
標注答案統計模塊:統計記錄了“步驟一、標注”的會話標注信息,可作為優化操作的參考。
優化操作模塊:包含召回干預、文檔管理和高頻問題三種方式。
召回干預:用于干預使用已配置的知識回復用戶問句,即強制機器人用指定知識回復有關用戶問句。
用戶問句:即機器人無法正確召回已配置知識回復的用戶問句。
匹配類型:能夠回應用戶問句的知識所屬類型。
匹配知識:能夠回應用戶問句的知識。
文檔管理:鏈接到文檔管理界面,優化有關文檔知識。
高頻問題:鏈接到高頻問題管理界面,通過補充或優化有關高頻問答知識來優化有關問答效果。
步驟三:回歸測評
完成優化操作后,可根據標注結果,單擊回歸測評右側操作,單擊確定創建回歸測評任務。
單擊標注,進入回歸測評任務標注頁面。
打開對比歷史回復,可選擇歷史會話數據進行比較并標注。
根據實際業務需求,可以將有關會話數據添加至黃金測評集,用于后續重新標注測評該會話(創建標注任務時,選擇數據來源于此黃金測評集),持續優化會話效果。
標注任務數據統計
完成標注任務后,單擊標注任務右側的數據統計,即可查看標注數據。