久久国产精品国产精品国产-青春草在线精品视频-长春欧亚卖场是哪个区-青青草视频在线你懂的-丰满人妻一区二区三区精品高清-国产精品久久久久久无码AV-韩国精品一区二区三区四区-韩国日本在线观看一区二区-av日韩天堂在线播放

發(fā)現(xiàn)者網(wǎng) 手機網(wǎng)站 站內(nèi)搜索
  • 洞察行業(yè)動向,賦能未來市場!發(fā)現(xiàn)者網(wǎng),商業(yè)視角的探索之旅!
發(fā)現(xiàn)商業(yè)評論 旗下
洞察商業(yè) 啟迪未來

DeepSeek發(fā)布新論文提出“條件記憶”,或為V4大模型提供關鍵技術支撐

   時間:2026-01-13 14:40 來源:互聯(lián)網(wǎng)作者:楊凌霄

DeepSeek團隊在人工智能領域再掀波瀾,其最新研究論文《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》正式發(fā)布,提出了一種名為"條件記憶"的創(chuàng)新技術框架。這項突破性成果旨在解決大語言模型在知識檢索與動態(tài)推理之間的效率矛盾,通過引入稀疏查找機制優(yōu)化模型架構,為下一代稀疏模型發(fā)展開辟新路徑。

研究團隊由DeepSeek核心成員與北京大學王選所趙東巖、張輝帥團隊聯(lián)合組成,針對現(xiàn)有混合專家模型(MoE)的局限性展開攻關。傳統(tǒng)Transformer架構在處理命名實體、公式化表達等靜態(tài)知識時,需通過多層注意力機制重建檢索路徑,造成計算資源的浪費。新提出的Engram模塊通過稀疏查找操作直接獲取靜態(tài)嵌入,與MoE的動態(tài)參數(shù)激活形成互補,形成"動態(tài)計算+靜態(tài)檢索"的雙軌機制。

實驗數(shù)據(jù)顯示,在固定參數(shù)量和計算量的條件下,將20%-25%的稀疏參數(shù)分配給Engram模塊可獲得最優(yōu)性能。以100億參數(shù)規(guī)模模型為例,驗證損失值從1.7248降至1.7109?;谠摪l(fā)現(xiàn)訓練的Engram-27B模型,通過調(diào)整專家數(shù)量與記憶模塊配比,在知識推理、代碼生成等任務中展現(xiàn)出顯著優(yōu)勢:MMLU基準測試提升3.0分,Humaneval代碼生成任務提升3.0分,GSM8K數(shù)學推理提升2.2分。

這項技術突破的核心在于"U形擴展定律"的發(fā)現(xiàn)。研究證實,當Engram內(nèi)存占比達到總稀疏參數(shù)的74.3%時,模型在保持計算效率的同時,能有效釋放注意力機制的處理能力。機制分析表明,Engram模塊通過將靜態(tài)知識檢索前移至早期網(wǎng)絡層,使后續(xù)注意力層可專注于全局上下文理解,特別在長文本處理場景中表現(xiàn)出色。

值得關注的是,該研究明確將條件記憶定位為下一代稀疏模型的基礎組件。結合近期外媒報道,DeepSeek計劃在春節(jié)前后發(fā)布的新旗艦模型V4,極有可能集成這項創(chuàng)新技術。知情人士透露,內(nèi)部測試顯示V4在代碼生成領域已超越Claude、GPT等主流模型,其強勁表現(xiàn)引發(fā)行業(yè)高度期待。

自2024年發(fā)布R1模型引發(fā)全球關注以來,DeepSeek持續(xù)保持技術迭代速度。2025年下半年,該團隊平均每月都有重要成果發(fā)布:12月開源的V3.2系列模型達到GPT-5水平;11月發(fā)布的Math-V2成為首個通過國際奧數(shù)金牌測試的開源模型;10月推出的OCR技術通過光學壓縮將長文本處理成本降低60%;9月更以百萬token輸入價格0.2元的策略震動行業(yè)。

此次條件記憶技術的突破,標志著大語言模型進入"動態(tài)智能+靜態(tài)知識"的融合發(fā)展階段。通過解耦存儲與計算,Engram架構不僅提升了知識檢索效率,更重構了模型內(nèi)部的注意力分配機制。這種設計范式為處理多模態(tài)數(shù)據(jù)、構建通用人工智能提供了新的技術路徑,或將重新定義AI模型的能力邊界。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容