久久国产精品国产精品国产-青春草在线精品视频-长春欧亚卖场是哪个区-青青草视频在线你懂的-丰满人妻一区二区三区精品高清-国产精品久久久久久无码AV-韩国精品一区二区三区四区-韩国日本在线观看一区二区-av日韩天堂在线播放

發(fā)現(xiàn)者網(wǎng) 手機(jī)網(wǎng)站 站內(nèi)搜索
  • 洞察行業(yè)動(dòng)向,賦能未來(lái)市場(chǎng)!發(fā)現(xiàn)者網(wǎng),商業(yè)視角的探索之旅!
發(fā)現(xiàn)商業(yè)評(píng)論 旗下
洞察商業(yè) 啟迪未來(lái)

Nature頂刊新基準(zhǔn):全球頂尖AI模型在“人類(lèi)終極考試”中表現(xiàn)欠佳

   時(shí)間:2026-03-08 02:45 來(lái)源:快訊作者:朱天宇

AI技術(shù)發(fā)展日新月異,從高德納對(duì)Claude破解難題的驚嘆,到數(shù)學(xué)家陶哲軒宣稱(chēng)GPT-5.2 Pro解決數(shù)學(xué)難題達(dá)到博士水平,AI在各個(gè)領(lǐng)域不斷突破。然而,在被稱(chēng)為“人類(lèi)最后的考試”的新基準(zhǔn)測(cè)試中,即便是最先進(jìn)的AI模型也表現(xiàn)不佳,最高得分僅8%,這一結(jié)果引發(fā)了廣泛關(guān)注。

隨著AI模型能力的迅速提升,傳統(tǒng)基準(zhǔn)測(cè)試逐漸失去效力。大規(guī)模多任務(wù)語(yǔ)言理解(MMLU)等曾被視為高難度的評(píng)測(cè),如今AI的準(zhǔn)確率已超過(guò)90%,甚至接近“飽和”。研究人員指出,這些測(cè)試過(guò)于簡(jiǎn)單,難以真實(shí)反映AI的先進(jìn)水平,更無(wú)法確保其安全性和有效性。為了應(yīng)對(duì)這一挑戰(zhàn),全球近千名研究人員組成聯(lián)盟,開(kāi)發(fā)了名為“人類(lèi)最后的考試”(Humanity’s Last Exam,HLE)的新基準(zhǔn)。

HLE由AI安全中心CAIS和Scale AI團(tuán)隊(duì)共同開(kāi)發(fā),包含3000個(gè)極具挑戰(zhàn)性的問(wèn)題,最終篩選出2500道用于測(cè)試。這些問(wèn)題覆蓋數(shù)學(xué)、人文學(xué)科、自然科學(xué)、古代語(yǔ)言及高度專(zhuān)業(yè)化的子領(lǐng)域,旨在全面評(píng)估AI的能力。每道題都經(jīng)過(guò)領(lǐng)先AI模型的測(cè)試,只有那些當(dāng)前系統(tǒng)無(wú)法解答的問(wèn)題才會(huì)被保留,確保測(cè)試恰好處于AI能力邊界之外。

初步測(cè)試結(jié)果顯示,即便是最先進(jìn)的模型也難以應(yīng)對(duì)HLE的挑戰(zhàn):GPT-4o僅得2.7%,Claude 3.5 Sonnet為4.1%,而OpenAI的旗艦?zāi)P蚾1也僅取得8%的成績(jī)。這一結(jié)果凸顯了HLE的高難度,也表明當(dāng)前AI在復(fù)雜、專(zhuān)業(yè)化知識(shí)領(lǐng)域仍存在明顯局限。

德州農(nóng)工大學(xué)計(jì)算機(jī)科學(xué)與工程系副教授Tung Nguyen參與了HLE的題目撰寫(xiě)和完善工作,貢獻(xiàn)了73道考題,尤其在數(shù)學(xué)和計(jì)算機(jī)科學(xué)領(lǐng)域撰寫(xiě)了大量題目。他指出,HLE的目的并非難倒人類(lèi),而是精確揭示AI目前無(wú)法完成的任務(wù)。盡管AI在傳統(tǒng)基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,但這些測(cè)試未必能衡量真正的“智能”。HLE的命名雖有玩笑成分,但其核心理念是設(shè)立一道人類(lèi)對(duì)AI的終極考驗(yàn)——如果AI能通過(guò),則意味著它達(dá)到了專(zhuān)業(yè)化人類(lèi)專(zhuān)家的水平。

HLE的問(wèn)題需要多年的專(zhuān)門(mén)研究才能解答,僅靠互聯(lián)網(wǎng)數(shù)據(jù)的“猜測(cè)”無(wú)法奏效。例如,考試涵蓋從核物理到古代史的廣泛領(lǐng)域,沒(méi)有人類(lèi)能獨(dú)自通過(guò)整個(gè)考試,但特定領(lǐng)域的專(zhuān)家可以輕松回答其專(zhuān)業(yè)內(nèi)的問(wèn)題。相比之下,AI在幾乎所有類(lèi)別上都表現(xiàn)不佳,凸顯了其在深度專(zhuān)業(yè)知識(shí)方面的不足。

 
 
更多>同類(lèi)內(nèi)容
全站最新
熱門(mén)內(nèi)容