aaa亚洲精品_国产精品久久久久久久久晋中 _亚洲午夜精品久久久久久久久_欧美成人免费网_性欧美xxxx_日本一区二区免费在线_成年人国产精品_99热在这里有精品免费_国产欧美日韩中文字幕_91精品国产综合久久香蕉麻豆

您的位置:首頁 >觀察 > 正文

焦點訊息:AI考生今日抵達,商湯與上海AI實驗室等發布“書生·浦語”大模型

隨著AI大語言模型越來越多地表現出接近人類智能,面向人類設計的高難度、綜合性考試被越來越多地引入到對語言模型的智能水平進行評測。OpenAI 在其關于 GPT-4 的技術報告中就主要通過各領域的考試對模型能力進行檢驗。

2023年高考今日開考,中文大語言模型是否能夠在高考中趕超ChatGPT呢?

綜合“大考”:“書生·浦語”多項成績領先于 ChatGPT


【資料圖】

近日,商湯科技、上海AI實驗室聯合香港中文大學、復旦大學及上海交通大學發布千億級參數大語言模型“書生·浦語”(InternLM)。

“書生·浦語”具有1040億參數,是在包含1.6萬億token的多語種高質量數據集上訓練而成。

全面評測結果顯示,“書生·浦語”不僅在知識掌握、閱讀理解、數學推理、多語翻譯等多個測試任務上表現優秀,而且具備很強的綜合能力,因而在綜合性考試中表現突出,在多項中文考試中取得超越ChatGPT的成績,其中就包括中國高考各個科目的數據集(GaoKao)。

“書生·浦語”聯合團隊選取了20余項評測對其進行檢驗,其中包含全球最具影響力的四個綜合性考試評測集:

由伯克利加州大學等高校構建的多任務考試評測集MMLU;

微軟研究院推出的學科考試評測集AGIEval(含中國高考、司法考試及美國SAT、LSAT、GRE和GMAT等);

由上海交通大學、清華大學和愛丁堡大學合作構建的面向中文語言模型的綜合性考試評測集C-Eval;

以及由復旦大學研究團隊構建的高考題目評測集Gaokao;

實驗室聯合團隊對“書生·浦語”、GLM-130B、LLaMA-65B、ChatGPT和 GPT-4進行了全面測試,針對上述四個評測集的成績對比如下(滿分100分)。

“書生·浦語”不僅顯著超越了GLM-130B和LLaMA-65B等學術開源模型,還在AGIEval、C-Eval,以及Gaokao等多個綜合性考試中領先于ChatGPT;在以美國考試為主的MMLU上實現和ChatGPT持平。這些綜合性考試的成績反映出“書生·浦語”扎實的知識掌握程度和優秀的綜合能力。

雖然 “書生·浦語”在考試評測上取得優秀成績,但在測評中也可以看到,大語言模型仍然存在不少能力局限性。“書生·浦語” 受限于2K的語境窗口長度(GPT-4的語境窗口長度為32K),在長文理解、復雜推理、撰寫代碼以及數理邏輯演繹等方面還存在明顯局限。另外,在實際對話中,大語言模型還普遍存在幻覺、概念混淆等問題。這些局限使得大語言模型在開放場景中的使用還有很長的路要走。

四個綜合性考試評測數據集結果

MMLU是由伯克利加州大學(UC Berkeley)聯合哥倫比亞大學、芝加哥大學和UIUC共同構建的多任務考試評測集,涵蓋了初等數學、物理、化學、計算機科學、美國歷史、法律、經濟、外交等多個學科。

細分科目結果如下表所示。

(圖中粗體表示結果最佳,下劃線表示結果第二)

AGIEval是由微軟研究院在今年新提出的學科考試評測集,主要目標是通過面向的考試來評估語言模型的能力,從而實現模型智能和人類智能的對比。

這個評測集基于中國和美國各類考試構建了19個評測大項,包括了中國各科高考、司法考試以及美國的 SAT、LSAT、GRE 和 GMAT等重要考試。值得一提的是,在這19個大項有9個大項是中國高考,通常也列為一個重要的評測子集 AGIEval (GK)。

下列表格中,帶GK的是中國高考科目。

(圖中粗體表示結果最佳,下劃線表示結果第二)

C-Eval是由上海交通大學、清華大學和愛丁堡大學合作構建的面向中文語言模型的綜合性考試評測集。

它包含了52個科目的近14000道考題,涵蓋數學、物理、化學、生物、歷史、政治、計算機等學科考試,以及面向公務員、注冊會計師、律師、醫生的職業考試。

測試結果可以通過leaderboard獲得。

Gaokao是由復旦大學研究團隊構建的基于中國高考題目的綜合性考試評測集,包含了中國高考的各個科目,以及選擇、填空、問答等多種題型。

在GaoKao測評中,“書生·浦語”在超過75%的項目中均領先ChatGPT。

分項評測:閱讀理解、推理能力表現出色

為避免“偏科”,研究人員還通過多個學術評測集,對“書生·浦語”等語言模型的分項能力進行了評測對比。

結果顯示,“書生·浦語”不僅在中英文的閱讀理解方面表現突出,并且在數學推理、編程能力等評測中也取得較好成績。

知識問答方面,“書生·浦語”在TriviaQA 和 NaturalQuestions 兩項評測上得分為69.8和27.6,均超越LLaMA-65B(得分為68.2和23.8)。

閱讀理解(英語)方面,“書生·浦語”明顯領先于LLaMA-65B和ChatGPT。浦語在初中和高中英語閱讀理解中得分為92.7和88.9,ChatGPT得分為 85.6 和81.2,LLaMA-65B則更低。

中文理解方面,“書生·浦語”成績全面超越主要的兩個中文語言模型ERNIE-260B和GLM-130B。

多語翻譯方面,“書生·浦語”在多語種互譯中的平均得分為33.9,顯著超越LLaMA(平均得分15.1)。

數學推理方面,“書生·浦語”在GSM8K和MATH這兩項被廣泛用于評測的數學考試中,分別取得62.9和14.9的得分,明顯領先于Google的PaLM-540B(得分為56.5和8.8)與LLaMA-65B(得分為50.9和10.9)。

編程能力方面,“書生·浦語”在HumanEval和MBPP這兩項最具代表性的考評中,分別取得28.1和41.4的得分(其中經過在代碼領域的微調后,在HumanEval上的得分可以提升至45.7),明顯領先于PaLM-540B(得分為 26.2和36.8)與LLaMA-65B(得分為23.7和37.7)。

此外,研究人員還對“書生·浦語”的安全性進行評測,在TruthfulQA(主要評價回答的事實準確性) 以及CrowS-Pairs(主要評價回答是否含有偏見)上,“書生·浦語”均達到領先水平。

(以上圖片由商湯科技授權中國網財經使用)

關鍵詞

熱門資訊

aaa亚洲精品_国产精品久久久久久久久晋中 _亚洲午夜精品久久久久久久久_欧美成人免费网_性欧美xxxx_日本一区二区免费在线_成年人国产精品_99热在这里有精品免费_国产欧美日韩中文字幕_91精品国产综合久久香蕉麻豆
成人午夜免费av| 亚洲人成在线播放网站岛国 | 亚洲视频每日更新| 国产成人午夜精品影院观看视频| 欧美日韩国产a| 久久精品国产99久久6| 久久精品视频一区| 成人免费高清视频在线观看| 精品免费日韩av| 日韩精品电影在线观看| 99精品欧美一区| 自拍偷拍欧美激情| 欧美精品第1页| 樱花草国产18久久久久| 久久久国产精品不卡| 91超碰这里只有精品国产| 99re这里只有精品视频首页| 加勒比av一区二区| 肉色丝袜一区二区| 中文在线一区二区| 亚洲视频综合在线| 精品播放一区二区| 狂野欧美性猛交blacked| 一区二区三区国产精品| 国产亚洲欧美激情| 精品久久久久香蕉网| bt7086福利一区国产| 午夜精品福利一区二区三区蜜桃| 国产嫩草影院久久久久| 2020日本不卡一区二区视频| 欧美日韩不卡一区| 91精品在线一区二区| 欧美日韩一区二区三区在线看| 色激情天天射综合网| 91精品国产麻豆| 中文无字幕一区二区三区| 亚洲国产成人一区二区三区| 欧美韩国一区二区| 亚洲不卡一区二区三区| 日韩三级视频在线观看| 蜜桃av一区二区| 久久在线免费观看| 久久aⅴ国产欧美74aaa| 日韩欧美卡一卡二| 亚洲三级在线免费观看| 日韩高清在线一区| av激情亚洲男人天堂| 国产日韩欧美制服另类| 老鸭窝一区二区久久精品| 亚洲成a人片在线观看中文| 国产精品久久久久毛片软件| 欧美日韩在线观看一区二区 | 国产suv精品一区二区三区| 色哟哟一区二区在线观看| 91蜜桃网址入口| 国产精品三级在线观看| 久久99日本精品| 久久综合久久鬼色中文字| 日本一区二区三区四区| 国产精品亚洲专一区二区三区| 日韩区在线观看| 九九久久精品视频| 亚洲欧美日韩久久| 欧美午夜电影网| 精品一区二区三区av| 国产午夜精品一区二区三区嫩草| 成人福利视频在线看| 亚洲免费视频中文字幕| 久久国产精品免费| 一区二区三区四区av| 欧美卡1卡2卡| 国产麻豆9l精品三级站| 亚洲男人电影天堂| 国产亚洲欧美日韩在线一区| 蜜桃一区二区三区在线| 一本大道综合伊人精品热热| 麻豆精品久久久| 欧美肥胖老妇做爰| 国产91精品久久久久久久网曝门| 日韩av中文在线观看| 一卡二卡三卡日韩欧美| 欧美日韩夫妻久久| 青草国产精品久久久久久| 国产精品久久久久久亚洲伦| 欧美v亚洲v综合ⅴ国产v| 欧美在线你懂得| 欧美综合视频在线观看| 99国产精品国产精品久久| 日本成人在线看| 国产一区美女在线| 日韩av电影天堂| 亚洲丝袜精品丝袜在线| 国产精品久久久久久久第一福利| 国产亚洲欧美日韩日本| 亚洲激情校园春色| 亚洲最大的成人av| 性久久久久久久久久久久| 午夜精品视频一区| 久久99国产精品成人| 蜜桃精品视频在线| 色一情一乱一乱一91av| 日韩一级免费一区| 亚洲精品五月天| 成人精品小蝌蚪| 国产尤物一区二区| av电影一区二区| 欧美精品一区二区三区四区| 精品成人一区二区| 日韩综合一区二区| 3d动漫精品啪啪| 日产欧产美韩系列久久99| 不卡视频一二三四| 99在线精品一区二区三区| 欧美一区永久视频免费观看| 欧美日韩视频在线一区二区| 欧美视频三区在线播放| 国产精品久久久久久久蜜臀| 欧美xxxx老人做受| 亚洲图片有声小说| 制服.丝袜.亚洲.中文.综合| 日韩美女啊v在线免费观看| 久久国产精品色| 日韩午夜在线观看| 亚洲欧美日韩成人高清在线一区| 99久久婷婷国产综合精品电影 | 99久久99久久久精品齐齐| 麻豆国产一区二区| 久久综合视频网| 欧美专区在线观看一区| 日日夜夜一区二区| 国产精品美女久久久久aⅴ| 欧美色窝79yyyycom| 欧洲亚洲国产日韩| 91麻豆产精品久久久久久| 国产成人aaa| 福利一区福利二区| 青青草97国产精品免费观看 | 成人av电影在线| 亚洲欧美一区二区三区极速播放| 欧美videos中文字幕| 国产欧美日韩另类一区| 精品伦理精品一区| 欧美精品一区二区三区在线| 99精品热视频| 制服丝袜激情欧洲亚洲| 制服丝袜av成人在线看| 欧美精品久久久久久久多人混战| 激情偷乱视频一区二区三区| 国产福利一区二区三区在线视频| 奇米色777欧美一区二区| 蜜臀av性久久久久蜜臀aⅴ流畅| 韩国女主播一区| www.亚洲国产| 欧美精品一级二级三级| 91精品国产欧美一区二区 | 日韩一区精品字幕| 亚洲午夜羞羞片| 国产九九视频一区二区三区| 欧美日韩精品专区| 中文幕一区二区三区久久蜜桃| 中文字幕在线观看不卡| 蜜芽一区二区三区| 一本大道久久a久久精二百| 欧美日韩国产免费一区二区| 日本午夜精品视频在线观看| 国产一区二区三区免费看| 精品视频一区 二区 三区| 国产精品女人毛片| 久久国产福利国产秒拍| 色综合中文字幕| 成人一区在线观看| 欧美精品一区二区三区久久久| 青青国产91久久久久久| 欧美一区二区成人| 日本不卡在线视频| 精品乱人伦小说| 国产乱子伦一区二区三区国色天香| 欧美日韩国产小视频| 亚洲成人免费在线| 丰满少妇久久久久久久| 亚洲视频图片小说| 欧美日韩三级视频| 激情综合色播五月| 欧美激情在线看| 欧美日精品一区视频| 国产色一区二区| 91精品欧美久久久久久动漫 | 日产欧产美韩系列久久99| 国产精品一区专区| 水蜜桃久久夜色精品一区的特点| 欧美亚洲动漫精品| 国内精品久久久久影院色| 日本一区二区三区高清不卡| 97国产精品videossex| 日韩av在线发布| 国产喷白浆一区二区三区| 国产宾馆实践打屁股91| 亚洲免费观看高清在线观看| 欧美大肚乱孕交hd孕妇| 欧美色爱综合网|