您的位置：首頁>公告 >

AI考生今日抵達，商湯與上海AI實驗室等發布“書生·浦語”大模型

2023-06-08 08:20:13 來源：中國網財經

隨著AI大語言模型越來越多地表現出接近人類智能，面向人類設計的高難度、綜合性考試被越來越多地引入到對語言模型的智能水平進行評測。OpenAI 在其關于 GPT-4 的技術報告中就主要通過各領域的考試對模型能力進行檢驗。

2023年高考今日開考，中文大語言模型是否能夠在高考中趕超ChatGPT呢？

【資料圖】

綜合“大考”：“書生·浦語”多項成績領先于 ChatGPT

近日，商湯科技、上海AI實驗室聯合香港中文大學、復旦大學及上海交通大學發布千億級參數大語言模型“書生·浦語”(InternLM)。

“書生·浦語”具有1040億參數，是在包含1.6萬億token的多語種高質量數據集上訓練而成。

全面評測結果顯示，“書生·浦語”不僅在知識掌握、閱讀理解、數學推理、多語翻譯等多個測試任務上表現優秀，而且具備很強的綜合能力，因而在綜合性考試中表現突出，在多項中文考試中取得超越ChatGPT的成績，其中就包括中國高考各個科目的數據集(GaoKao)。

“書生·浦語”聯合團隊選取了20余項評測對其進行檢驗，其中包含全球最具影響力的四個綜合性考試評測集：

由伯克利加州大學等高校構建的多任務考試評測集MMLU；

微軟研究院推出的學科考試評測集AGIEval(含中國高考、司法考試及美國SAT、LSAT、GRE和GMAT等)；

由上海交通大學、清華大學和愛丁堡大學合作構建的面向中文語言模型的綜合性考試評測集C-Eval；

以及由復旦大學研究團隊構建的高考題目評測集Gaokao；

實驗室聯合團隊對“書生·浦語”、GLM-130B、LLaMA-65B、ChatGPT和 GPT-4進行了全面測試，針對上述四個評測集的成績對比如下(滿分100分)。

“書生·浦語”不僅顯著超越了GLM-130B和LLaMA-65B等學術開源模型，還在AGIEval、C-Eval，以及Gaokao等多個綜合性考試中領先于ChatGPT；在以美國考試為主的MMLU上實現和ChatGPT持平。這些綜合性考試的成績反映出“書生·浦語”扎實的知識掌握程度和優秀的綜合能力。

雖然 “書生·浦語”在考試評測上取得優秀成績，但在測評中也可以看到，大語言模型仍然存在不少能力局限性。“書生·浦語” 受限于2K的語境窗口長度(GPT-4的語境窗口長度為32K)，在長文理解、復雜推理、撰寫代碼以及數理邏輯演繹等方面還存在明顯局限。另外，在實際對話中，大語言模型還普遍存在幻覺、概念混淆等問題。這些局限使得大語言模型在開放場景中的使用還有很長的路要走。

四個綜合性考試評測數據集結果

MMLU是由伯克利加州大學(UC Berkeley)聯合哥倫比亞大學、芝加哥大學和UIUC共同構建的多任務考試評測集，涵蓋了初等數學、物理、化學、計算機科學、美國歷史、法律、經濟、外交等多個學科。

細分科目結果如下表所示。

(圖中粗體表示結果最佳，下劃線表示結果第二)

AGIEval是由微軟研究院在今年新提出的學科考試評測集，主要目標是通過面向的考試來評估語言模型的能力，從而實現模型智能和人類智能的對比。

這個評測集基于中國和美國各類考試構建了19個評測大項，包括了中國各科高考、司法考試以及美國的 SAT、LSAT、GRE 和 GMAT等重要考試。值得一提的是，在這19個大項有9個大項是中國高考，通常也列為一個重要的評測子集 AGIEval (GK)。

下列表格中，帶GK的是中國高考科目。

(圖中粗體表示結果最佳，下劃線表示結果第二)

C-Eval是由上海交通大學、清華大學和愛丁堡大學合作構建的面向中文語言模型的綜合性考試評測集。

它包含了52個科目的近14000道考題，涵蓋數學、物理、化學、生物、歷史、政治、計算機等學科考試，以及面向公務員、注冊會計師、律師、醫生的職業考試。

測試結果可以通過leaderboard獲得。

Gaokao是由復旦大學研究團隊構建的基于中國高考題目的綜合性考試評測集，包含了中國高考的各個科目，以及選擇、填空、問答等多種題型。

在GaoKao測評中，“書生·浦語”在超過75%的項目中均領先ChatGPT。

分項評測：閱讀理解、推理能力表現出色

為避免“偏科”，研究人員還通過多個學術評測集，對“書生·浦語”等語言模型的分項能力進行了評測對比。

結果顯示，“書生·浦語”不僅在中英文的閱讀理解方面表現突出，并且在數學推理、編程能力等評測中也取得較好成績。

知識問答方面，“書生·浦語”在TriviaQA 和 NaturalQuestions 兩項評測上得分為69.8和27.6，均超越LLaMA-65B(得分為68.2和23.8)。

閱讀理解(英語)方面，“書生·浦語”明顯領先于LLaMA-65B和ChatGPT。浦語在初中和高中英語閱讀理解中得分為92.7和88.9，ChatGPT得分為 85.6 和81.2，LLaMA-65B則更低。

中文理解方面，“書生·浦語”成績全面超越主要的兩個中文語言模型ERNIE-260B和GLM-130B。

多語翻譯方面，“書生·浦語”在多語種互譯中的平均得分為33.9，顯著超越LLaMA(平均得分15.1)。

數學推理方面，“書生·浦語”在GSM8K和MATH這兩項被廣泛用于評測的數學考試中，分別取得62.9和14.9的得分，明顯領先于Google的PaLM-540B(得分為56.5和8.8)與LLaMA-65B(得分為50.9和10.9)。

編程能力方面，“書生·浦語”在HumanEval和MBPP這兩項最具代表性的考評中，分別取得28.1和41.4的得分(其中經過在代碼領域的微調后，在HumanEval上的得分可以提升至45.7)，明顯領先于PaLM-540B(得分為 26.2和36.8)與LLaMA-65B(得分為23.7和37.7)。

此外，研究人員還對“書生·浦語”的安全性進行評測，在TruthfulQA(主要評價回答的事實準確性) 以及CrowS-Pairs(主要評價回答是否含有偏見)上，“書生·浦語”均達到領先水平。

(以上圖片由商湯科技授權中國網財經使用)

關鍵詞：

AI考生今日抵達，商湯與上海AI實驗室等發布“書生·浦語”大模型

相關閱讀

AI考生今日抵達，商湯與上海AI實驗室等...

天天亮點！突發，閃崩跌停！殺白馬行情...

1萬塊買國債逆回購14天收益多少？國債逆...

利好涌現！外資重磅官宣：超買中國！再...

孟晚舟：技術奇點正在臨近，生成式AI、...

華為發布新一代分布式數據庫GaussDB 世界訊息

歐洲有多少個國家首都有水？|世界時快訊

蔡徐坤，王藝瑾，楊冪，ab白鹿，徐開騁_...

貴金屬開戶需要多少錢？黃金td投資的門...

天天微動態丨協鑫能科調整發行可轉債方...

商務預報：5月29日至6月4日禽產品零售價...

世界熱議:【收評】滬鎳日內上漲0.13% ...

全球滾動:瞄準800億電梯后市場！“萬御...

應急管理部：5月全國超40條河流發生超警...

乘聯會：預計今年新能源乘用車銷量達850...

六五環境日河南主場活動在鄭舉行生態...

世界實時：關于原點對稱的點的坐標規律_...

我非生而知之者好古敏以求之者也的意思...

向上級反應情況還是反映情況_向上級反映...

全球滾動:宜賓學院召開中層領導干部經濟...

熱點文章

AI考生今日抵達，商湯與上海AI實驗室等發布“書生·浦語”大模型

相關閱讀

熱點文章

推薦文章