久久国产精品国产精品国产-青春草在线精品视频-长春欧亚卖场是哪个区-青青草视频在线你懂的-丰满人妻一区二区三区精品高清-国产精品久久久久久无码AV-韩国精品一区二区三区四区-韩国日本在线观看一区二区-av日韩天堂在线播放

發(fā)現(xiàn)者網(wǎng) 手機(jī)網(wǎng)站 站內(nèi)搜索
  • 洞察行業(yè)動(dòng)向,賦能未來(lái)市場(chǎng)!發(fā)現(xiàn)者網(wǎng),商業(yè)視角的探索之旅!
發(fā)現(xiàn)商業(yè)評(píng)論 旗下
洞察商業(yè) 啟迪未來(lái)

馬斯克盛贊!Kimi 論文革新殘差連接 深度學(xué)習(xí)底層范式迎新變

   時(shí)間:2026-03-18 19:17 來(lái)源:天脈網(wǎng)作者:陸辰風(fēng)

在人工智能領(lǐng)域,底層架構(gòu)的突破往往比上層應(yīng)用的優(yōu)化更具顛覆性。近日,中國(guó)AI公司月之暗面(Moonshot AI)發(fā)布的技術(shù)報(bào)告《Attention Residuals》(注意力殘差)引發(fā)全球關(guān)注,其提出的創(chuàng)新架構(gòu)在同等算力下可將模型性能提升25%,這項(xiàng)突破被OpenAI前核心成員Jerry Tworek譽(yù)為"深度學(xué)習(xí)2.0的開(kāi)端"。

這項(xiàng)技術(shù)直指現(xiàn)代大模型的核心組件——?dú)埐钸B接(Residual Connections)。自2015年ResNet論文提出該設(shè)計(jì)以來(lái),這種通過(guò)"直通道"傳遞原始輸入的機(jī)制已成為深度學(xué)習(xí)的基石。但月之暗面團(tuán)隊(duì)發(fā)現(xiàn),傳統(tǒng)殘差連接存在根本性缺陷:隨著網(wǎng)絡(luò)加深,各層貢獻(xiàn)被稀釋,導(dǎo)致大量中間層實(shí)質(zhì)上處于"閑置"狀態(tài)。研究顯示,某些大模型中超過(guò)30%的層可直接移除而不影響性能。

創(chuàng)新的關(guān)鍵在于將注意力機(jī)制從橫向的序列處理維度,旋轉(zhuǎn)90度應(yīng)用于縱向的深度維度。團(tuán)隊(duì)為每層引入可學(xué)習(xí)的"查詢向量",使模型能動(dòng)態(tài)決定參考哪些前序?qū)拥妮敵?。這種設(shè)計(jì)僅增加約100行代碼,卻讓480億參數(shù)模型的驗(yàn)證損失顯著下降。在博士級(jí)科學(xué)推理GPQA-Diamond基準(zhǔn)測(cè)試中,新架構(gòu)展現(xiàn)出7.5%的性能飛躍,數(shù)學(xué)和代碼生成任務(wù)也有3%以上的提升。

工程實(shí)現(xiàn)上的突破同樣值得關(guān)注。為解決全量注意力帶來(lái)的內(nèi)存爆炸問(wèn)題,團(tuán)隊(duì)開(kāi)發(fā)了Block AttnRes方案,將網(wǎng)絡(luò)劃分為多個(gè)模塊,模塊間采用稀疏注意力連接。通過(guò)跨階段緩存機(jī)制和兩階段計(jì)算策略,訓(xùn)練開(kāi)銷控制在4%以內(nèi),推理延遲增加不超過(guò)2%。這種設(shè)計(jì)哲學(xué)在理論優(yōu)雅性與工程實(shí)用性之間取得了平衡——當(dāng)測(cè)試更激進(jìn)的動(dòng)態(tài)查詢向量方案時(shí),雖然性能進(jìn)一步提升,但因會(huì)增加推理延遲而被放棄。

這項(xiàng)突破的意義遠(yuǎn)超技術(shù)本身。當(dāng)行業(yè)普遍聚焦于數(shù)據(jù)規(guī)模和模型參數(shù)量時(shí),月之暗面選擇回歸深度學(xué)習(xí)的基礎(chǔ)設(shè)施進(jìn)行重構(gòu)。研究顯示,新架構(gòu)改變了模型對(duì)深度與寬度的資源分配偏好,使增加網(wǎng)絡(luò)層數(shù)真正產(chǎn)生價(jià)值,而非簡(jiǎn)單的參數(shù)堆砌。這種方法論的轉(zhuǎn)變,可能預(yù)示著深度學(xué)習(xí)進(jìn)入新的發(fā)展階段——當(dāng)現(xiàn)有框架的優(yōu)化空間逐漸耗盡,重新審視那些被視為"已解決問(wèn)題"的基礎(chǔ)組件,或許能打開(kāi)新的性能天花板。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容