日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

大模型評測最佳實踐

在大模型時代,模型評測是衡量性能、精選和優(yōu)化模型的關(guān)鍵環(huán)節(jié),對加快AI創(chuàng)新和實踐至關(guān)重要。PAI大模型評測平臺支持多樣化的評測場景,如不同基礎(chǔ)模型、微調(diào)版本和量化版本的對比分析。本文為您介紹針對于不同用戶群體及對應(yīng)數(shù)據(jù)集類型,如何實現(xiàn)更全面準(zhǔn)確且具有針對性的模型評測,從而在AI領(lǐng)域可以更好地取得成就。

背景信息

內(nèi)容簡介

在大模型時代,隨著模型效果的顯著提升,模型評測的重要性日益凸顯??茖W(xué)、高效的模型評測,不僅能幫助開發(fā)者有效地衡量和對比不同模型的性能,更能指導(dǎo)他們進(jìn)行精準(zhǔn)地模型選擇和優(yōu)化,加速AI創(chuàng)新和應(yīng)用落地。因此,建立一套平臺化的大模型評測最佳實踐愈發(fā)重要。

本文為PAI大模型評測最佳實踐,旨在指引AI開發(fā)人員使用PAI平臺進(jìn)行大模型評測。借助本文,您可以輕松構(gòu)建出既能反映模型真實性能,又能滿足行業(yè)特定需求的評測過程,助力您在人工智能賽道上取得更好的成績。最佳實踐包括如下內(nèi)容:

  • 如何準(zhǔn)備和選擇評測數(shù)據(jù)集

  • 如何選擇適合業(yè)務(wù)的開源或微調(diào)后模型

  • 如何創(chuàng)建評測任務(wù)并選擇合適的評價指標(biāo)

  • 如何在單任務(wù)或多任務(wù)場景下解讀評測結(jié)果

平臺特點

PAI大模型評測平臺,適合您針對不同的大模型評測場景,進(jìn)行模型效果對比。例如:

  • 不同基礎(chǔ)模型對比:Qwen2-7B-Instruct vs. Baichuan2-7B-Chat

  • 同一模型不同微調(diào)版本對比:Qwen2-7B-Instruct 在私有領(lǐng)域數(shù)據(jù)下訓(xùn)練不同epoch版本效果對比

  • 同一模型不同量化版本對比:Qwen2-7B-Instruct-GPTQ-Int4 vs. Qwen2-7B-Instruct-GPTQ-Int8

考慮到不同開發(fā)群體的特定需求,本文將以企業(yè)開發(fā)者算法研究人員兩個典型群體為例,探討如何結(jié)合企業(yè)的自定義數(shù)據(jù)集與常用的公開數(shù)據(jù)集(如MMLU、C-Eval等),實現(xiàn)更全面準(zhǔn)確并具有針對性的模型評測,查找適合您業(yè)務(wù)需求的大模型。本實踐特點如下:

  • 端到端完整評測鏈路,無需代碼開發(fā),支持主流開源大模型,與大模型微調(diào)后的一鍵評測。

  • 支持用戶自定義數(shù)據(jù)集上傳,內(nèi)置10+通用NLP評測指標(biāo),一覽式結(jié)果展示,無需再開發(fā)評測腳本。

  • 支持多個領(lǐng)域的常用公開數(shù)據(jù)集評測,完整還原官方評測方法,雷達(dá)圖全景展示,省去逐個下載評測集和熟悉評測流程的繁雜。

  • 支持多模型多任務(wù)同時評測,評測結(jié)果圖表式對比展示,輔以單條評測結(jié)果詳情,方便全方位比較分析。

  • 評測過程公開透明,結(jié)果可復(fù)現(xiàn)。評測代碼開源在與ModelScope共建的開源代碼庫eval-scope中,方便查看細(xì)節(jié)與復(fù)現(xiàn)評測結(jié)果。

計費說明

  • PAI大模型評測依托于PAI-快速開始產(chǎn)品。快速開始本身不收費,但使用快速開始進(jìn)行模型評測時,可能產(chǎn)生DLC評測任務(wù)費用,計費詳情請參見分布式訓(xùn)練(DLC)計費說明。

  • 如果選擇自定義數(shù)據(jù)集評測,使用OSS存儲時會產(chǎn)生相關(guān)費用,計費詳情請參見OSS計費概述。

場景一:面向企業(yè)開發(fā)者的自定義數(shù)據(jù)集評測

企業(yè)通常會積累豐富的私有領(lǐng)域數(shù)據(jù)。如何充分利用好這部分?jǐn)?shù)據(jù),是企業(yè)使用大模型進(jìn)行算法優(yōu)化的關(guān)鍵。因此,企業(yè)開發(fā)者在評測開源微調(diào)后的大模型時,往往會基于私有領(lǐng)域下積累的自定義數(shù)據(jù)集,以便于更好地了解大模型在私有領(lǐng)域的效果。

對于自定義數(shù)據(jù)集評測,PAI大模型評測平臺使用NLP領(lǐng)域標(biāo)準(zhǔn)的文本匹配方式,計算模型輸出結(jié)果和真實結(jié)果的匹配度,值越大,模型越好。使用該評測方式,基于自己場景的獨特數(shù)據(jù),可以評測所選模型是否適合自己的場景。

以下將重點展示使用過程中的一些關(guān)鍵點,更詳細(xì)的操作細(xì)節(jié),請參見模型評測。

  1. 準(zhǔn)備自定義評測集。

    1. 自定義評測集格式說明:

      基于自定義數(shù)據(jù)集進(jìn)行評測時,需要準(zhǔn)備JSONL格式的評測集文件(示例文件:llmuses_general_qa_test.jsonl,76 KB)。格式如下:

      [{"question": "中國發(fā)明了造紙術(shù),是否正確?", "answer": "正確"}]
      [{"question": "中國發(fā)明了火藥,是否正確?", "answer": "正確"}]

      使用question標(biāo)識問題列,answer標(biāo)識答案列。

    2. 上傳符合格式的評測集文件至OSS,詳情請參見上傳文件至OSS。

    3. 根據(jù)OSS中評測集文件創(chuàng)建評測集。詳情請參見創(chuàng)建數(shù)據(jù)集:從阿里云云產(chǎn)品

  2. 選擇適合業(yè)務(wù)的模型。

    使用開源模型

    PAI控制臺左側(cè)導(dǎo)航欄快速開始 > Model Gallery頁面中,鼠標(biāo)懸浮在模型卡片上,對于可評測的模型,會顯示評測按鈕。

    image

    使用微調(diào)后的模型

    PAI控制臺左側(cè)導(dǎo)航欄快速開始 > Model Gallery頁面中,鼠標(biāo)懸浮在模型卡片上,對于可評測的模型,會顯示評測按鈕。對可評測的模型進(jìn)行微調(diào)訓(xùn)練,然后在快速開始 > Model Gallery > 任務(wù)管理 > 訓(xùn)練任務(wù)頁面中單擊已訓(xùn)練成功的任務(wù),右上角會顯示評測按鈕。

    image

    當(dāng)前模型評測功能支持HuggingFace所有AutoModelForCausalLM類型的模型。

  3. 創(chuàng)建并運行評測任務(wù)。

    在模型詳情頁右上角單擊評測,創(chuàng)建評測任務(wù)。

    image

    關(guān)鍵參數(shù)配置如下:

    參數(shù)

    描述

    數(shù)據(jù)集

    選擇上文所創(chuàng)建的自定義數(shù)據(jù)集。

    結(jié)果輸出路徑

    指定最終評測結(jié)果保存的OSS路徑。

    資源組類型

    根據(jù)實際情況,選擇公共資源組或通用計算資源。

    任務(wù)資源

    如果資源組類型為公共資源組時,默認(rèn)會根據(jù)您的模型規(guī)格推薦相應(yīng)資源。

    單擊提交,任務(wù)開始運行。

  4. 查看評測結(jié)果。

    單任務(wù)結(jié)果

    當(dāng)快速開始 > Model Gallery > 任務(wù)管理 > 模型評測頁面中評測任務(wù)的狀態(tài)列顯示已成功時,單擊操作列的查看報告,在自定義數(shù)據(jù)集評測結(jié)果頁面查看模型在ROUGEBLEU系列指標(biāo)上的得分。

    image

    此外還會展示評測文件每條數(shù)據(jù)的評測詳情。

    多任務(wù)對比結(jié)果

    快速開始 > Model Gallery > 任務(wù)管理 > 模型評測頁面中選中要對比的模型評測任務(wù),右上角單擊對比,在自定義數(shù)據(jù)集評測結(jié)果頁面查看對比結(jié)果。

    image

    評測結(jié)果解析:

    自定義數(shù)據(jù)集的默認(rèn)評測指標(biāo)包括:rouge-1-f、rouge-1-p、rouge-1-r、rouge-2-f、rouge-2-p、rouge-2-r、rouge-l-f、rouge-l-p、rouge-l-r、bleu-1、bleu-2、bleu-3、bleu-4。

    • rouge-n類指標(biāo)計算N-gram(連續(xù)的N個詞)的重疊度,其中rouge-1rouge-2是最常用的,分別對應(yīng)unigrambigram,rouge-l指標(biāo)基于最長公共子序列(LCS)。

    • bleu (Bilingual Evaluation Understudy) 是另一種流行的評估機(jī)器翻譯質(zhì)量的指標(biāo),它通過測量機(jī)器翻譯輸出與一組參考翻譯之間的N-gram重疊度來評分。其中bleu-n指標(biāo)計算N-gram的匹配度。

    最終評測結(jié)果會保存到之前設(shè)置的結(jié)果輸出路徑中。

場景二:面向算法研究人員的公開數(shù)據(jù)集評測

算法研究通常建立在公開數(shù)據(jù)集上。研究人員在選擇開源模型,或?qū)δP瓦M(jìn)行微調(diào)后,都會參考其在權(quán)威公開數(shù)據(jù)集上的評測效果。然而,大模型時代的公開數(shù)據(jù)集種類繁多,研究人員需要花費大量時間調(diào)研選擇適合自己領(lǐng)域的公開數(shù)據(jù)集,并熟悉每個數(shù)據(jù)集的評測流程。為方便算法研究人員,PAI接入了多個領(lǐng)域的公開數(shù)據(jù)集,并完整還原了各個數(shù)據(jù)集官方指定的評測metrics,以便獲取最準(zhǔn)確的評測效果反饋,助力更高效的大模型研究。

在公開數(shù)據(jù)集評測中,PAI大模型評測平臺通過對開源的評測數(shù)據(jù)集按領(lǐng)域分類,對大模型進(jìn)行綜合能力評估,例如數(shù)學(xué)能力、知識能力、推理能力等,值越大,模型越好,這種評測方式也是大模型領(lǐng)域最常見的評測方式。

以下將重點展示使用過程中的一些關(guān)鍵點,更詳細(xì)的操作細(xì)節(jié),請參見模型評測

  1. 支持的公開數(shù)據(jù)集說明:

    目前PAI維護(hù)的公開數(shù)據(jù)集包括MMLU、TriviaQA、HellaSwag、GSM8K、C-Eval、CMMLU、TruthfulQA,其他公開數(shù)據(jù)集陸續(xù)接入中。

    數(shù)據(jù)集

    大小

    數(shù)據(jù)量

    領(lǐng)域

    MMLU

    166 MB

    14042

    知識

    TriviaQA

    14.3 MB

    17944

    知識

    C-Eval

    1.55 MB

    12342

    中文

    CMMLU

    1.08 MB

    11582

    中文

    GSM8K

    4.17 MB

    1319

    數(shù)學(xué)

    HellaSwag

    47.5 MB

    10042

    推理

    TruthfulQA

    0.284 MB

    816

    安全性

  2. 選擇適合業(yè)務(wù)的模型。

    使用開源模型

    PAI控制臺左側(cè)導(dǎo)航欄快速開始 > Model Gallery頁面中,鼠標(biāo)懸浮在模型卡片上,對于可評測的模型,會顯示評測按鈕。

    image

    使用微調(diào)后的模型

    PAI控制臺左側(cè)導(dǎo)航欄快速開始 > Model Gallery頁面中,鼠標(biāo)懸浮在模型卡片上,對于可評測的模型,會顯示評測按鈕。對可評測的模型進(jìn)行微調(diào)訓(xùn)練,然后在快速開始 > Model Gallery > 任務(wù)管理 > 訓(xùn)練任務(wù)頁面中單擊已訓(xùn)練成功的任務(wù),右上角會顯示評測按鈕。

    image

    當(dāng)前模型評測功能支持HuggingFace所有AutoModelForCausalLM類型的模型。

  3. 創(chuàng)建并運行評測任務(wù)。

    在模型詳情頁右上角單擊評測,創(chuàng)建評測任務(wù)。

    image

    關(guān)鍵參數(shù)配置如下:

    參數(shù)

    描述

    數(shù)據(jù)集

    選擇公開數(shù)據(jù)集。

    結(jié)果輸出路徑

    指定最終評測結(jié)果保存的OSS路徑。

    資源組類型

    根據(jù)實際情況,選擇公共資源組或通用計算資源。

    任務(wù)資源

    如果資源組類型為公共資源組時,默認(rèn)會根據(jù)您的模型規(guī)格推薦相應(yīng)資源。

    單擊提交,任務(wù)開始運行。

  4. 查看評測結(jié)果。

    單任務(wù)結(jié)果

    當(dāng)快速開始 > Model Gallery > 任務(wù)管理 > 模型評測頁面中評測任務(wù)的狀態(tài)列顯示已成功時,單擊操作列的查看報告,在公開數(shù)據(jù)集評測結(jié)果頁面查看模型在各領(lǐng)域及數(shù)據(jù)集上的得分。

    image

    多任務(wù)對比結(jié)果

    快速開始 > Model Gallery > 任務(wù)管理 > 模型評測頁面中選中要對比的模型評測任務(wù),右上角單擊對比,在公開數(shù)據(jù)集評測結(jié)果頁面查看對比結(jié)果。

    image

    評測結(jié)果解析:

    • 左圖展示了模型在不同領(lǐng)域的得分情況。每個領(lǐng)域可能會有多個與之相關(guān)的數(shù)據(jù)集,對屬于同一領(lǐng)域的數(shù)據(jù)集,PAI大模型評測平臺會把模型在這些數(shù)據(jù)集上的評測得分取均值,作為領(lǐng)域得分。

    • 右圖展示模型在各個公開數(shù)據(jù)集的得分情況。每個公開數(shù)據(jù)集的評測范圍詳見公開數(shù)據(jù)集說明。

    最終評測結(jié)果會保存到之前設(shè)置的結(jié)果輸出路徑中。

相關(guān)文檔

模型評測