久久国产精品国产精品国产-青春草在线精品视频-长春欧亚卖场是哪个区-青青草视频在线你懂的-丰满人妻一区二区三区精品高清-国产精品久久久久久无码AV-韩国精品一区二区三区四区-韩国日本在线观看一区二区-av日韩天堂在线播放

發(fā)現(xiàn)者網(wǎng) 手機(jī)網(wǎng)站 站內(nèi)搜索
  • 洞察行業(yè)動(dòng)向,賦能未來市場!發(fā)現(xiàn)者網(wǎng),商業(yè)視角的探索之旅!
發(fā)現(xiàn)商業(yè)評論 旗下
洞察商業(yè) 啟迪未來

DeepSeek新模型發(fā)力:小數(shù)據(jù)少顯卡,也能與巨頭模型掰手腕

   時(shí)間:2025-12-03 18:25 來源:快訊作者:楊凌霄

在人工智能模型競爭愈發(fā)激烈的當(dāng)下,開源模型與閉源模型的差距曾一度呈現(xiàn)擴(kuò)大趨勢。然而,DeepSeek的最新動(dòng)作,為開源模型陣營注入了一劑強(qiáng)心針。

12月1日,DeepSeek一次性發(fā)布了兩款新模型——DeepSeek V3.2和DeepSeek-V3.2-Speciale。這一舉措瞬間在行業(yè)內(nèi)引發(fā)關(guān)注。DeepSeek V3.2在性能上已能與GPT-5展開激烈角逐,而高性能版的DeepSeek-V3.2-Speciale更是表現(xiàn)驚艷,直接超越GPT系列,與國際公認(rèn)的閉源模型天花板Gemini打得難解難分。不僅如此,這兩款模型還在IMO 2025(國際數(shù)學(xué)奧林匹克)、CMO 2025(中國數(shù)學(xué)奧林匹克)等一系列權(quán)威賽事中斬獲金牌,實(shí)力不容小覷。

值得注意的是,這是DeepSeek今年發(fā)布的第九款模型。盡管備受期待的R2尚未現(xiàn)身,但此次兩款新模型的發(fā)布,已然展現(xiàn)出DeepSeek強(qiáng)大的技術(shù)實(shí)力和創(chuàng)新能力。那么,DeepSeek究竟是如何憑借更小的數(shù)據(jù)量和更少的顯卡資源,打造出能與國際巨頭抗衡的模型呢?

深入探究其背后的技術(shù)革新,會(huì)發(fā)現(xiàn)DeepSeek此次帶來了不少新思路。其中,稀疏注意力(DSA)的正式應(yīng)用堪稱一大亮點(diǎn)。在之前的V3.2-EXP版本中,稀疏注意力僅處于測試階段,主要驗(yàn)證其對模型性能的影響。而此次,DeepSeek果斷將其納入主力模型,為模型性能提升帶來了顯著效果。

在日常與大模型交互時(shí),我們常常會(huì)遇到這樣的困擾:對話內(nèi)容過長時(shí),模型容易出現(xiàn)邏輯混亂甚至直接拒絕繼續(xù)對話的情況。這其實(shí)是傳統(tǒng)大模型注意力機(jī)制存在的弊端。在傳統(tǒng)機(jī)制下,每個(gè)新生成的token都需要與前面的所有token進(jìn)行計(jì)算,這就導(dǎo)致句子長度與模型計(jì)算量呈平方關(guān)系增長。例如,句子長度翻倍,計(jì)算量就變?yōu)樵瓉淼乃谋?;長度變?yōu)槿?,?jì)算量則飆升至九倍,極大地限制了模型處理長文本的能力。

為了解決這一問題,DeepSeek為大模型引入了類似“固定頁數(shù)目錄”的稀疏注意力機(jī)制。這一機(jī)制如同為模型提供了閱讀指南,幫助其快速定位關(guān)鍵信息。在處理文本時(shí),模型只需計(jì)算當(dāng)前token與“目錄”之間的關(guān)系,就像閱讀時(shí)先瀏覽目錄,再根據(jù)興趣深入閱讀具體章節(jié)一樣。這種改進(jìn)使得模型處理長文本的能力大幅提升。從相關(guān)數(shù)據(jù)對比圖中可以明顯看出,隨著句子長度增加,采用傳統(tǒng)注意力機(jī)制的V3.1推理成本急劇上升,而使用稀疏注意力的V3.2則基本保持穩(wěn)定,大大節(jié)省了計(jì)算資源。

除了在注意力機(jī)制上進(jìn)行創(chuàng)新,DeepSeek還高度重視開源模型的后訓(xùn)練工作。大模型的訓(xùn)練過程,類似于人類從小學(xué)到高考的學(xué)習(xí)歷程。大規(guī)模預(yù)訓(xùn)練階段,如同從小學(xué)到高二的知識(shí)積累,無論是閉源模型還是開源模型,都在這一階段認(rèn)真“學(xué)習(xí)”。然而,到了高考沖刺階段,也就是模型的后訓(xùn)練階段,閉源模型通常會(huì)投入大量資源,聘請“名師”進(jìn)行強(qiáng)化學(xué)習(xí),以提升模型在考試中的表現(xiàn)。相比之下,開源模型在這一階段的投入相對較少,導(dǎo)致模型雖然具備基礎(chǔ)能力,但在應(yīng)對難題時(shí)表現(xiàn)欠佳。

為了彌補(bǔ)這一短板,DeepSeek設(shè)計(jì)了一套全新的強(qiáng)化學(xué)習(xí)協(xié)議。在預(yù)訓(xùn)練結(jié)束后,投入超過總訓(xùn)練算力10%的資源為模型進(jìn)行專項(xiàng)訓(xùn)練,相當(dāng)于為開源模型也開設(shè)了“名師輔導(dǎo)班”。同時(shí),DeepSeek還推出了具有超長思考能力的特殊版本——DeepSeek V3.2 Speciale。傳統(tǒng)大模型由于上下文長度限制,在訓(xùn)練過程中會(huì)對深度思考內(nèi)容進(jìn)行標(biāo)注懲罰,思考內(nèi)容過長就會(huì)被扣分。而DeepSeek V3.2 Speciale則打破了這一限制,鼓勵(lì)模型自由思考,不受思考時(shí)長和方式的約束。這一創(chuàng)新使得DeepSeek V3.2 Speciale在與Gemini 3的較量中表現(xiàn)出色。

在智能體能力方面,DeepSeek同樣下足了功夫。一方面,為了提升模型的基礎(chǔ)能力,DeepSeek構(gòu)建了一個(gè)虛擬環(huán)境,合成了大量數(shù)據(jù)用于輔助訓(xùn)練。具體而言,DeepSeek-V3.2使用了24667個(gè)真實(shí)代碼環(huán)境任務(wù)、50275個(gè)真實(shí)搜索任務(wù)、4417個(gè)合成通用agent場景以及5908個(gè)真實(shí)代碼解釋任務(wù)進(jìn)行后訓(xùn)練。另一方面,DeepSeek優(yōu)化了模型使用工具的流程。以往模型在調(diào)用外部工具時(shí),會(huì)將思考過程與工具調(diào)用分割開來,導(dǎo)致每次調(diào)用工具后都需要重新構(gòu)建推理鏈,效率低下。例如,即使是查詢“今天幾月幾號(hào)”這樣簡單的問題,模型也需要從頭開始推理。而DeepSeek V3.2對這一邏輯進(jìn)行了徹底重構(gòu),在工具調(diào)用過程中,模型的思考過程得以保留,只有當(dāng)用戶提出新問題時(shí)才會(huì)重置推理;工具調(diào)用記錄和結(jié)果也會(huì)像聊天記錄一樣保留在上下文中,大大提高了模型使用工具的效率。

盡管DeepSeek此次取得了一系列令人矚目的成果,但并非完美無缺。在論文中,DeepSeek坦誠地指出了自身存在的問題。例如,DeepSeek V3.2 Speciale在與谷歌Gemini 3 Pro的對決中,雖然能夠打成平手,但在回答相同問題時(shí),DeepSeek需要消耗更多的token。通過實(shí)際測試發(fā)現(xiàn),對于一道復(fù)雜題目,Gemini 3 Pro僅需4972個(gè)token就能給出答案,而DeepSeek V3.2 Speciale則需要8077個(gè)token,token消耗量高出近六成。

然而,從成本角度來看,DeepSeek依然具有明顯優(yōu)勢。以剛才的測試為例,DeepSeek 8000多個(gè)token僅花費(fèi)0.0032美元,而谷歌的5000個(gè)token卻需要0.06美元,成本高出約20倍。這一對比顯示出DeepSeek在性價(jià)比方面的巨大潛力。

近期,開源模型與閉源模型的差距問題備受關(guān)注。但DeepSeek憑借自身的努力和創(chuàng)新,不斷縮小這一差距。其一系列節(jié)省算力、優(yōu)化數(shù)據(jù)的操作,讓人聯(lián)想到OpenAI前靈魂人物Ilya Sutskever的觀點(diǎn)。他認(rèn)為,單純依靠堆砌模型參數(shù)并非長遠(yuǎn)之計(jì)?;仡櫲斯ぶ悄馨l(fā)展歷程,AlexNet僅使用兩塊GPU,Transformer實(shí)驗(yàn)規(guī)模大多在8 - 64塊GPU之間,ResNet也是如此,沒有哪篇論文依賴龐大的集群才能完成。相比之下,對算法的研究同樣至關(guān)重要。DeepSeek正是沿著這一方向不斷探索,從V2的MoE架構(gòu),到V3的多頭潛在注意力(MLA),再到如今DeepSeek Math V2的自驗(yàn)證機(jī)制以及V3.2的稀疏注意力(DSA),每一次進(jìn)步都源于對算法的深入研究與創(chuàng)新,而非單純依靠參數(shù)規(guī)模的擴(kuò)張。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容