日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

多模態RLHF標注

多模態RLHF標注模板提供多模態RLHF標注的功能,在對話改寫的基礎上,可以接入輸入機器人進行自動問答,也可以在手動問答模式輸入圖片等多模態類型的內容。

背景信息

OpenAI近期公布的文檔中,揭示了ChatGPT在對話場景中超越Bert等自然語言處理(NLP)模型的成就,其核心優化機制是采用人類反饋強化學習(Reinforcement Learning from Human Feedback, RLHF)技術。本文從模型的訓練產物和目標進行詳細分析,幫助您深入理解RLHF技術在ChatGPT中的應用,以及“標注”過程的重要性。

RLHF訓練機制包含三個主要階段:

  1. 基于GPT-3.5的微調產生Fine-Tuned Model(SFT),期間高質量的提示(prompt)及其對應答案是很重要,這些數據來源于多模型預測或人工提供,因此對標注人員的素質有高要求。

  2. 構建獎勵模型(Reward Model)以評估和篩選步驟1的預測結果,ChatGPT目前主要采用的是排序(Ranking)方法,并通過監督式學習優化(Supervised Learning with Ordered or Rankings,SLO)技術進行,此階段所需的人工標注形式為排序標注,側重于排序標注的精準度與規模。

  3. 運用近端策略優化(PPO)進行強化學習,依據獎勵模型輸出,此環節幾乎不涉及人工標注。

這三個階段構成ChatGPT的完整訓練循環,并持續迭代優化。人工標注在初始的微調和獎勵模型構建階段發揮了重要作用,雖需求量較預訓練階段的小規模監督數據為少,但其質量和數量對模型性能影響顯著。

數據格式示例

說明

CSVXLSX格式中每一列數據;Manifest格式中data字段的下一級字段均對應一個數據集字段,字段名可自定義,在配置數據集字段名時選擇對應的字段名即可。圖片文件支持常見的JPG、PNG等格式。

手動輸入模式下,不需要第二列首輪問題數據,僅需要topic數據。

CSVXLSX格式

topic

first-question

水果01

蘋果好吃嗎?

水果02

橘子好吃嗎?

Demo:

RLHF數據demo.csv

Manifest格式(JSONL格式)

{"data":{"topic":"水果01","first-question":"蘋果好吃嗎?"}}
{"data":{"topic":"水果02","first-question":"橘子好吃嗎?"}}

Demo:

RLHF數據demo.manifest

配置說明

題目區(必選)

題目區用于配置話題字段。

image

單擊選中當前話題,并選擇相應的數據集后,在右側配置區域配置具體參數。參數說明如下:

參數

說明

標題

默認標題區域無需修改。

數據集字段

在數據集字段中選擇題目展示字段。(字段名可自定義)

提示

默認提示區域無需修改。

點擊鏈接跳轉

無需配置,不生效。

文本高亮

無需配置,不生效。

卡片樣式配置

無需配置,不生效。

問題區(自動問答模式下,首輪問題必選)

問題區可以在自動問答模式配置首輪問題和問題區域題目,手動輸入模式配置無效。

說明

自動問答機器人包含首輪問題組件,需要進行配置;手動提問不包含此組件。配置首輪問題后,還需要配置提問機器人的UDF信息。

image

單擊選中首輪問題后,在右側配置區域配置具體參數。參數說明如下:

參數

說明

標題

默認標題區域無需修改。

數據集字段

配置首輪問題對應的數據集字段。(字段名可自定義)

提示

默認提示區域無需修改。

點擊鏈接跳轉

無需配置,不生效。

文本高亮

無需配置,不生效。

卡片樣式配置

無需配置,不生效。

答題區(可選)

答題區用于配置回答機器人回復文本相關問題。

image

單擊選中答題區后,在右側配置區域配置具體參數。參數說明如下:

參數

說明

標題

可根據需要配置問題標題。

選項

說明

當答題類型為單選、多選樹選擇時,需要配置此參數。

  • 當答題類型為單選多選時,可以通過手工錄入數據集導入配置,詞典搜索暫時無法使用。

  • 當答題類型為樹選擇時,僅支持手工錄入配置。

占位文本

說明

當答題類型為單行輸入框輸入框-Markdown預覽時,需要配置此參數。

填空題占位文字,用于引導用戶輸入內容。

提示

配置懸停在題目標題上時出現的提示文字。

是否必填

配置題目是否為必填項,若為必填則答題時會進行必填校驗。

支持搜索選項

說明

當答題類型為單選多選時,需要配置此參數。

配置后可以進行選項的搜索。

生效階段

題目的生效階段,不選時默認全流程生效。

全局題目(可選)

全局題目用于根據需要針對整個主題提出問題。

image

單擊選中題目后,在右側配置區域配置具體參數。參數說明如下:

參數

說明

標題

可根據需要配置問題標題。

占位文本

說明

當答題類型為輸入框-Markdown預覽單行輸入框時需要配置此參數。

填空題占位文字,用于引導用戶輸入內容。

選項

說明

當答題類型為單選、多選、樹選擇多選樹選擇時,需要配置此參數。

  • 當答題類型為單選多選時,可以通過手工錄入數據集導入配置,詞典搜索暫時無法使用。

  • 當答題類型為樹選擇多選樹選擇時,僅支持手工錄入配置。

提示

配置懸停在題目標題上時出現的提示文字。

是否必填

配置題目是否為必填項,若為必填則答題時會進行必填校驗。

支持搜索選項

說明

當答題類型為單選多選時,需要配置此參數。

配置后可以進行選項的搜索。

生效階段

題目的生效階段,不選時默認全流程生效。

全局配置

全局配置用于配置模板中會使用到的UDF。

image

單擊image,在右側配置問答機器人,回答機器人最多可以配置3個。選擇機器人的UDF之后添加配置參數即可。

說明

在自動問答模式下,配置了首輪問題后需要配置提問機器人的UDF信息。提問機器人的UDF使用pai-qw-基于上下文生成問題,其余參數與回答機器人相同,input_dataMarkResult用于讓UDF正確接收輸入參數,不可隨意更改;return_nums為返回個數,可自行修改,最多不超過5。

操作演示

多模態RLHF標注-自動問答

  1. 單擊發起問答后,機器人會自動發起問答。

  2. 用戶可對發起的問題進行改寫,同時也可對機器人的回答進行改寫,并完成配置好的答題。

image

多模態RLHF標注-輸入問答

  1. 用戶可在對話框內輸入文字,或上傳圖片、視頻、音頻等。

  2. 用戶可根據機器人的回答,對其進行改寫并進行答題;單擊歷史發送輸入框,可對已經發送的post進行修改,使機器人重新回答。

image