多模態RLHF標注模板提供多模態RLHF標注的功能,在對話改寫的基礎上,可以接入輸入機器人進行自動問答,也可以在手動問答模式輸入圖片等多模態類型的內容。
背景信息
OpenAI近期公布的文檔中,揭示了ChatGPT在對話場景中超越Bert等自然語言處理(NLP)模型的成就,其核心優化機制是采用人類反饋強化學習(Reinforcement Learning from Human Feedback, RLHF)技術。本文從模型的訓練產物和目標進行詳細分析,幫助您深入理解RLHF技術在ChatGPT中的應用,以及“標注”過程的重要性。
RLHF訓練機制包含三個主要階段:
基于GPT-3.5的微調產生Fine-Tuned Model(SFT),期間高質量的提示(prompt)及其對應答案是很重要,這些數據來源于多模型預測或人工提供,因此對標注人員的素質有高要求。
構建獎勵模型(Reward Model)以評估和篩選步驟1的預測結果,ChatGPT目前主要采用的是排序(Ranking)方法,并通過監督式學習優化(Supervised Learning with Ordered or Rankings,SLO)技術進行,此階段所需的人工標注形式為排序標注,側重于排序標注的精準度與規模。
運用近端策略優化(PPO)進行強化學習,依據獎勵模型輸出,此環節幾乎不涉及人工標注。
這三個階段構成ChatGPT的完整訓練循環,并持續迭代優化。人工標注在初始的微調和獎勵模型構建階段發揮了重要作用,雖需求量較預訓練階段的小規模監督數據為少,但其質量和數量對模型性能影響顯著。
數據格式示例
CSV及XLSX格式中每一列數據;Manifest格式中data字段的下一級字段均對應一個數據集字段,字段名可自定義,在配置數據集字段名時選擇對應的字段名即可。圖片文件支持常見的JPG、PNG等格式。
手動輸入模式下,不需要第二列首輪問題數據,僅需要topic數據。
CSV及XLSX格式
topic | first-question |
水果01 | 蘋果好吃嗎? |
水果02 | 橘子好吃嗎? |
Demo:
Manifest格式(JSONL格式)
{"data":{"topic":"水果01","first-question":"蘋果好吃嗎?"}}
{"data":{"topic":"水果02","first-question":"橘子好吃嗎?"}}
Demo:
配置說明
題目區(必選)
題目區用于配置話題字段。
單擊選中當前話題,并選擇相應的數據集后,在右側配置區域配置具體參數。參數說明如下:
參數 | 說明 |
標題 | 默認標題區域無需修改。 |
數據集字段 | 在數據集字段中選擇題目展示字段。(字段名可自定義) |
提示 | 默認提示區域無需修改。 |
點擊鏈接跳轉 | 無需配置,不生效。 |
文本高亮 | 無需配置,不生效。 |
卡片樣式配置 | 無需配置,不生效。 |
問題區(自動問答模式下,首輪問題必選)
問題區可以在自動問答模式配置首輪問題和問題區域題目,手動輸入模式配置無效。
自動問答機器人包含首輪問題組件,需要進行配置;手動提問不包含此組件。配置首輪問題后,還需要配置提問機器人的UDF信息。
單擊選中首輪問題后,在右側配置區域配置具體參數。參數說明如下:
參數 | 說明 |
標題 | 默認標題區域無需修改。 |
數據集字段 | 配置首輪問題對應的數據集字段。(字段名可自定義) |
提示 | 默認提示區域無需修改。 |
點擊鏈接跳轉 | 無需配置,不生效。 |
文本高亮 | 無需配置,不生效。 |
卡片樣式配置 | 無需配置,不生效。 |
答題區(可選)
答題區用于配置回答機器人回復文本相關問題。
單擊選中答題區后,在右側配置區域配置具體參數。參數說明如下:
參數 | 說明 |
標題 | 可根據需要配置問題標題。 |
選項 說明 當答題類型為單選、多選或樹選擇時,需要配置此參數。 |
|
占位文本 說明 當答題類型為單行輸入框或輸入框-Markdown預覽時,需要配置此參數。 | 填空題占位文字,用于引導用戶輸入內容。 |
提示 | 配置懸停在題目標題上時出現的提示文字。 |
是否必填 | 配置題目是否為必填項,若為必填則答題時會進行必填校驗。 |
支持搜索選項 說明 當答題類型為單選或多選時,需要配置此參數。 | 配置后可以進行選項的搜索。 |
生效階段 | 題目的生效階段,不選時默認全流程生效。 |
全局題目(可選)
全局題目用于根據需要針對整個主題提出問題。
單擊選中題目后,在右側配置區域配置具體參數。參數說明如下:
參數 | 說明 |
標題 | 可根據需要配置問題標題。 |
占位文本 說明 當答題類型為輸入框-Markdown預覽或單行輸入框時需要配置此參數。 | 填空題占位文字,用于引導用戶輸入內容。 |
選項 說明 當答題類型為單選、多選、樹選擇或多選樹選擇時,需要配置此參數。 |
|
提示 | 配置懸停在題目標題上時出現的提示文字。 |
是否必填 | 配置題目是否為必填項,若為必填則答題時會進行必填校驗。 |
支持搜索選項 說明 當答題類型為單選或多選時,需要配置此參數。 | 配置后可以進行選項的搜索。 |
生效階段 | 題目的生效階段,不選時默認全流程生效。 |
全局配置
全局配置用于配置模板中會使用到的UDF。
單擊,在右側配置問答機器人,回答機器人最多可以配置3個。選擇機器人的UDF之后添加配置參數即可。
在自動問答模式下,配置了首輪問題后需要配置提問機器人的UDF信息。提問機器人的UDF使用pai-qw-基于上下文生成問題,其余參數與回答機器人相同,input_data及MarkResult用于讓UDF正確接收輸入參數,不可隨意更改;return_nums為返回個數,可自行修改,最多不超過5。
操作演示
多模態RLHF標注-自動問答
單擊發起問答后,機器人會自動發起問答。
用戶可對發起的問題進行改寫,同時也可對機器人的回答進行改寫,并完成配置好的答題。
多模態RLHF標注-輸入問答
用戶可在對話框內輸入文字,或上傳圖片、視頻、音頻等。
用戶可根據機器人的回答,對其進行改寫并進行答題;單擊歷史發送輸入框,可對已經發送的post進行修改,使機器人重新回答。