日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

<form id="qilry"></form>

<menuitem id="qilry"></menuitem>

備案控制臺

輸入文檔關鍵字查找

通過效果評測模塊對AI搜索開放平臺提供的RAG開發鏈路進行效果測評，從用戶提出問題開始，到RAG系統召回內容，再到LLM生成回答的整個流程進行綜合評測。

前提條件

開通AI搜索開放平臺服務，詳情請參見開通服務。

注意事項

效果評測按實際評測時產生的計算資源消耗計費，詳情請參見計費方式和計費項。

操作步驟

登錄AI搜索開放平臺控制臺。
選擇上海地域，切換到AI搜索開放平臺，切換到目標空間。
說明
- 目前僅支持在上海地域開通AI搜索開放平臺功能。
- 支持杭州、深圳、北京、張家口、青島地域的用戶，通過VPC地址跨地域調用AI搜索開放平臺的服務。
- 空間用于隔離和管理數據，首次開通AI搜索開放平臺服務后，系統自動創建一個Default空間，支持創建空間。
在左側導航欄選擇效果測評，選擇創建評測任務。

在創建評測任務頁面，輸入任務名稱，參照提供的樣例數據格式上傳評測數據集。

重要

一個測評數據集中，最大有效數據為200條，超出后系統提示報錯。
嚴格按照樣例模板上傳測評數據集，參考答案為可選項，同一個數據集中不支持部分問題無參考答案。

測評模板以及關鍵測評指標說明：

參數	說明
question	您的問題
standard_answer	參考答案，該參數值可為空，對測評報告返回的評測指標有影響。有參考答案，評測指標如下：無幻覺率（faithfulness）：檢索到的文檔與模型生成答案之間的幻覺率。有幻覺取值為0；無幻覺取值為1。檢索準確率（context_precision）：參考答案與檢索到的文檔之間的準確性。準確取值為1，不準確取值為0。檢索召回率（context_recall）：檢索到的文檔與參考答案之間的完整度，召回完整取值為1，召回不完整取值為0。滿意度（satisfaction）：模型生成的答案與參考答案之間對比：模型生成的答案無幻覺且準確、完整，滿意度為1。模型生成的答案無幻覺，但信息不準確或有遺漏時，滿意度為0.5。模型生成的答案存在幻覺問題時，滿意度為0。綜合評分（comprehensive_score）：無幻覺率、檢索準確率、檢索召回率、滿意度的綜合評分。無參考答案，評測指標如下：檢索相關性（context_relevance）：問題與檢索到的文檔的相關性，相關為1，不相關為0。可信度（credibility）：問題與模型生成答案的可信度。模型生成的答案無幻覺，且根據相關的檢索結果生成答案（若未檢索到相關結果，答案為無法回答）時，可信度為1。模型生成的答案無幻覺，但根據不相關的檢索結果生成答案，或有相關的檢索結果時答案為無法回答，可信度為0.5。模型生成的答案有幻覺時，可信度為0。無幻覺率（faithfulness）：檢索到的文檔與模型生成答案之間的幻覺率。有幻覺取值為0；無幻覺取值為1。綜合評分（comprehensive_score）：檢索相關性、無幻覺率、可信度的綜合評分。
recall_docs	檢索到的文檔
model_answer	模型生成的答案

完成上述參數配置后單擊確定創建評測任務。
測評任務狀態：
- 評測中、評測失敗：支持刪除評測任務。
- 評測成功：可下載評測報告Excel，包括2個部分：
  - sheet1-評測任務：測評任務總體情況，根據所有測評成功的問題計算均值指標。
    sheet2-任務詳情：針對每個問題的測評詳情數據。

上一篇：效果評測下一篇：開發參考

文檔內容是否對您有幫助？