日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

評測任務管理

通過效果評測模塊對AI搜索開放平臺提供的RAG開發鏈路進行效果測評,從用戶提出問題開始,到RAG系統召回內容,再到LLM生成回答的整個流程進行綜合評測。

前提條件

開通AI搜索開放平臺服務,詳情請參見開通服務。

注意事項

效果評測按實際評測時產生的計算資源消耗計費,詳情請參見計費方式和計費項。

操作步驟

  1. 登錄AI搜索開放平臺控制臺。

  2. 選擇上海地域,切換到AI搜索開放平臺,切換到目標空間。

    說明
    • 目前僅支持在上海地域開通AI搜索開放平臺功能。

    • 支持杭州、深圳、北京、張家口、青島地域的用戶,通過VPC地址跨地域調用AI搜索開放平臺的服務。

    • 空間用于隔離和管理數據,首次開通AI搜索開放平臺服務后,系統自動創建一個Default空間,支持創建空間。

  3. 在左側導航欄選擇效果測評,選擇創建評測任務。

  4. 在創建評測任務頁面,輸入任務名稱,參照提供的樣例數據格式上傳評測數據集。

    重要
    • 一個測評數據集中,最大有效數據為200條,超出后系統提示報錯。

    • 嚴格按照樣例模板上傳測評數據集,參考答案為可選項,同一個數據集中不支持部分問題無參考答案。

    image

    測評模板以及關鍵測評指標說明:

    參數

    說明

    question

    您的問題

    standard_answer

    參考答案,該參數值可為空,對測評報告返回的評測指標有影響。

    • 有參考答案,評測指標如下:

      • 無幻覺率(faithfulness):檢索到的文檔與模型生成答案之間的幻覺率。有幻覺取值為0;無幻覺取值為1。

      • 檢索準確率(context_precision):參考答案與檢索到的文檔之間的準確性。準確取值為1,不準確取值為0。

      • 檢索召回率(context_recall):檢索到的文檔與參考答案之間的完整度,召回完整取值為1,召回不完整取值為0。

      • 滿意度(satisfaction):模型生成的答案與參考答案之間對比:

        • 模型生成的答案無幻覺且準確、完整,滿意度為1。

        • 模型生成的答案無幻覺,但信息不準確或有遺漏時,滿意度為0.5。

        • 模型生成的答案存在幻覺問題時,滿意度為0。

      • 綜合評分(comprehensive_score):無幻覺率、檢索準確率、檢索召回率、滿意度的綜合評分。

    • 無參考答案,評測指標如下:

      • 檢索相關性(context_relevance):問題與檢索到的文檔的相關性,相關為1,不相關為0。

      • 可信度(credibility):問題與模型生成答案的可信度。

        • 模型生成的答案無幻覺,且根據相關的檢索結果生成答案(若未檢索到相關結果,答案為無法回答)時,可信度為1。

        • 模型生成的答案無幻覺,但根據不相關的檢索結果生成答案,或有相關的檢索結果時答案為無法回答,可信度為0.5。

        • 模型生成的答案有幻覺時,可信度為0。

      • 無幻覺率(faithfulness):檢索到的文檔與模型生成答案之間的幻覺率。有幻覺取值為0;無幻覺取值為1。

      • 綜合評分(comprehensive_score):檢索相關性、無幻覺率、可信度的綜合評分。

    recall_docs

    檢索到的文檔

    model_answer

    模型生成的答案

  5. 完成上述參數配置后單擊確定創建評測任務。

    測評任務狀態:

    • 評測中、評測失敗:支持刪除評測任務。

    • 評測成功:可下載評測報告Excel,包括2個部分:

      • sheet1-評測任務:測評任務總體情況,根據所有測評成功的問題計算均值指標。

        sheet2-任務詳情:針對每個問題的測評詳情數據。

        image