滾動資訊

當(dāng)前位置：發(fā)現(xiàn)者網(wǎng) > 科技業(yè)界 > 正文內(nèi)容

DeepSeek攜DeepSeek-Math-V2歸來，開啟自我驗(yàn)證數(shù)學(xué)推理新方向

時間：2025-11-29 06:00 來源：快訊作者：鐘景軒

人工智能領(lǐng)域迎來重大突破，DeepSeek團(tuán)隊(duì)近日在Hugging Face平臺發(fā)布了全新數(shù)學(xué)推理模型DeepSeek-Math-V2。該模型在定理證明能力上實(shí)現(xiàn)質(zhì)的飛躍，不僅超越了Gemini DeepThink等主流模型，更在國際數(shù)學(xué)奧林匹克競賽（IMO）級別的測試中達(dá)到金牌標(biāo)準(zhǔn)。

研發(fā)團(tuán)隊(duì)在論文中指出，現(xiàn)有AI數(shù)學(xué)模型普遍存在"重結(jié)果輕過程"的缺陷。傳統(tǒng)訓(xùn)練方式僅以最終答案正確性作為評判標(biāo)準(zhǔn)，導(dǎo)致模型在復(fù)雜證明題中常出現(xiàn)"邏輯跳躍"或"隱含假設(shè)"等問題。針對這一痛點(diǎn)，DeepSeek創(chuàng)新性地提出"自我驗(yàn)證"訓(xùn)練框架，通過構(gòu)建生成器-驗(yàn)證器協(xié)同進(jìn)化系統(tǒng)，使模型具備自主審查推理過程的能力。

該系統(tǒng)包含三個核心組件：首先訓(xùn)練具備專業(yè)評審能力的驗(yàn)證器，能對證明過程進(jìn)行三級評分（1分完美、0.5分存在瑕疵、0分錯誤）并撰寫詳細(xì)評語；其次引入元驗(yàn)證機(jī)制，通過雙重檢查確保評分合理性；最后開發(fā)具備自省能力的生成器，在輸出答案時必須同步進(jìn)行自我評估，誠實(shí)指出潛在錯誤。這種設(shè)計(jì)形成閉環(huán)訓(xùn)練體系，使模型在不斷自我修正中提升推理嚴(yán)謹(jǐn)性。

實(shí)驗(yàn)數(shù)據(jù)顯示，DeepSeek-Math-V2在多項(xiàng)權(quán)威基準(zhǔn)測試中表現(xiàn)卓越。在包含60道證明題的IMO-ProofBench測試集中，基礎(chǔ)子集得分接近99%，顯著領(lǐng)先其他模型；在高級子集雖略遜于Gemini DeepThink，但已達(dá)到IMO金牌選手水平。更令人矚目的是，該模型在Putnam 2024數(shù)學(xué)競賽測試中取得118/120的接近滿分成績，刷新了AI數(shù)學(xué)解題紀(jì)錄。

技術(shù)實(shí)現(xiàn)層面，研究團(tuán)隊(duì)突破傳統(tǒng)強(qiáng)化學(xué)習(xí)框架，不再依賴答案正確性作為唯一獎勵信號。通過構(gòu)建驗(yàn)證器與生成器的協(xié)同進(jìn)化機(jī)制，模型在訓(xùn)練過程中自動生成高難度樣本，形成"以戰(zhàn)養(yǎng)戰(zhàn)"的持續(xù)提升模式。這種創(chuàng)新方法不僅減少了對人工標(biāo)注數(shù)據(jù)的依賴，更有效抑制了大模型的幻覺問題，使推理過程具備可解釋性。

該成果在學(xué)術(shù)界引發(fā)廣泛關(guān)注。專家指出，DeepSeek-Math-V2的自我驗(yàn)證框架為AI數(shù)學(xué)推理開辟了新方向，其過程導(dǎo)向的訓(xùn)練方法有望推廣至物理、計(jì)算機(jī)科學(xué)等需要嚴(yán)格證明的領(lǐng)域。目前研究團(tuán)隊(duì)已公開模型代碼和論文，供全球研究者共同探索可驗(yàn)證推理的更多可能性。

通信世界網(wǎng)消息（CWW）星鏈（Starlink）作為美國SpaceX公司旗下的低地球軌道（LEO）衛(wèi)星互聯(lián)網(wǎng)計(jì)劃，自2015年啟動以來，以“構(gòu)建全球無縫寬帶網(wǎng)絡(luò)”為使命，重新定義了衛(wèi)星通信行業(yè)的技術(shù)邊界與商業(yè)…

11-29

三星AR眼鏡新專利亮相：雙軸鉸鏈與滑輪設(shè)計(jì)，舒適平衡再升級

這一型號的前綴“SM-O”與 Galaxy XR 頭顯的“SM-I”前綴明顯不同，暗示三星在內(nèi)部產(chǎn)品線劃分中將其視為一個獨(dú)立的全新類別。Galaxy XR 主打深度沉浸式體驗(yàn)，但其相對笨重的結(jié)構(gòu)可能限制用戶…

11-29

東莞證券人事變動：潘海標(biāo)“回歸”任董事長，券商行業(yè)高層調(diào)整頻現(xiàn)新動態(tài)

11-29

2025企業(yè)AI轉(zhuǎn)型指南：七大轉(zhuǎn)變引領(lǐng)智能共生新未來

11-29

芝商所因數(shù)據(jù)中心冷卻問題暫停交易后已全面恢復(fù)市場運(yùn)作

11-28

天風(fēng)證券接證監(jiān)會立案告知書，歷史遺留問題處置完畢，轉(zhuǎn)型成效顯著

11-28

貴州茅臺換帥！陳華當(dāng)選董事長同步推進(jìn)10kV供電系統(tǒng)改造項(xiàng)目

11-28

俄硝化棉需求激增本土供應(yīng)不足中國憑借優(yōu)勢產(chǎn)品出口前景廣闊

11-28

德基廣場“兩條腿走路”：奧萊與高端齊進(jìn)，華東市場破局待考

11-28

中國食品率先完成數(shù)據(jù)資產(chǎn)商業(yè)化閉環(huán) 開啟食品飲料行業(yè)數(shù)智化新篇章

11-28

東方嘉富人壽迎來新掌舵人何欣董事長任職資格獲浙江監(jiān)管局核準(zhǔn)

11-28

貴州茅臺臨時股東會：陳華首秀談規(guī)劃，行業(yè)寒冬信心足謀轉(zhuǎn)型

11-28

新三板開泰石化現(xiàn)大宗交易成交價溢價1.48% 成交金額達(dá)57.79萬元

11-28

11月28日龍虎榜：航天發(fā)展凈買入額居首，20只個股現(xiàn)機(jī)構(gòu)專用席位

11-28

中俄能源合作深化：中國超級油輪助力俄羅斯石油暢通亞洲市場

11-28

點(diǎn)擊查看更多 +

全站最新

長安馬自達(dá)廣州車展“出圈”：以全球標(biāo)準(zhǔn)融合本土智慧破局電動化

雷軍談AI賦能產(chǎn)業(yè)：效率精度雙提升，人形機(jī)器人前景廣闊

時光為引人生作箋：雷克薩斯以全維美學(xué)，書寫中國用戶品質(zhì)生活新詩篇

長租公寓魔方多地門店生變：上海租戶遇解約，杭州一店拖欠租金超百萬

日產(chǎn)鋒坦Frontier Pro：汽油柴油插混齊上陣工具玩樂屬性全拿捏

胡同停車不再“極限挑戰(zhàn)”：“一街一策”讓胡同靜下來美起來

熱門內(nèi)容

本欄最新

中興商業(yè)2025前三季增收利表現(xiàn)亮眼董事長屈大勇薪酬降近四成

谷歌CEO皮查伊：氛圍編程降低技術(shù)門檻，讓非技術(shù)者也能暢享創(chuàng)作樂趣

ICCAD2025聚焦：中國芯片設(shè)計(jì)產(chǎn)值或首破千億，清微王博榮膺年度企業(yè)家

劉強(qiáng)東第六家上市公司將至，京東工業(yè)上市能否助其比肩雷軍李書福？

華為云高層變動：周躍峰接任CEO，張平安履新董事長一職

華為云組織架構(gòu)新變動：研發(fā)歸入ICT，周躍峰接任CEO引領(lǐng)新征程

發(fā)現(xiàn)者網(wǎng) - 深度洞察行業(yè)動態(tài) 引領(lǐng)市場先鋒平臺 - 發(fā)現(xiàn)商業(yè)評論旗下網(wǎng)站北京·通州天津·濱海山東·濟(jì)南
發(fā)現(xiàn)者網(wǎng)（m.ruruan.com.cn）所有稿件免費(fèi)開放轉(zhuǎn)載，轉(zhuǎn)載請務(wù)必保留版權(quán)。
合作微信：netspread（注明:發(fā)現(xiàn)者網(wǎng)）
Copyright ? FXW 2012-2023 m.ruruan.com.cn All rights reserved. 魯ICP備2022032383號-3

DeepSeek攜DeepSeek-Math-V2歸來，開啟自我驗(yàn)證數(shù)學(xué)推理新方向

DeepSeek攜DeepSeek-Math-V2歸來，開啟自我驗(yàn)證數(shù)學(xué)推理新方向