久久国产精品国产精品国产-青春草在线精品视频-长春欧亚卖场是哪个区-青青草视频在线你懂的-丰满人妻一区二区三区精品高清-国产精品久久久久久无码AV-韩国精品一区二区三区四区-韩国日本在线观看一区二区-av日韩天堂在线播放

發(fā)現(xiàn)者網(wǎng) 手機(jī)網(wǎng)站 站內(nèi)搜索
  • 洞察行業(yè)動向,賦能未來市場!發(fā)現(xiàn)者網(wǎng),商業(yè)視角的探索之旅!
發(fā)現(xiàn)商業(yè)評論 旗下
洞察商業(yè) 啟迪未來

馬斯克盛贊Kimi新突破!大模型底層架構(gòu)迎來十年未有之變局

   時間:2026-03-18 18:56 來源:快訊作者:胡穎

在人工智能領(lǐng)域,底層架構(gòu)的創(chuàng)新往往比上層應(yīng)用的優(yōu)化更具顛覆性。月之暗面Kimi團(tuán)隊近期發(fā)布的技術(shù)報告《Attention Residuals》(注意力殘差),通過重構(gòu)殘差連接機(jī)制,在同等算力下將模型訓(xùn)練效率提升至傳統(tǒng)方法的1.25倍,這項突破性成果引發(fā)了硅谷頂尖AI專家的廣泛關(guān)注。OpenAI前核心成員Jerry Tworek甚至將其譽(yù)為"深度學(xué)習(xí)2.0的開端",認(rèn)為這項研究標(biāo)志著基礎(chǔ)范式變革的起點(diǎn)。

傳統(tǒng)大模型普遍采用殘差連接結(jié)構(gòu),這種自2015年ResNet論文提出的設(shè)計,通過保留原始輸入的"直通道"解決了深層網(wǎng)絡(luò)訓(xùn)練難題。但Kimi團(tuán)隊發(fā)現(xiàn),這種等權(quán)疊加所有層輸出的方式存在根本性缺陷:隨著網(wǎng)絡(luò)深度增加,中間層的貢獻(xiàn)會被后續(xù)層的信息稀釋,導(dǎo)致大量計算資源浪費(fèi)在無效訓(xùn)練上。實(shí)驗(yàn)數(shù)據(jù)顯示,現(xiàn)有模型中超過30%的神經(jīng)網(wǎng)絡(luò)層對最終效果影響微乎其微。

研究團(tuán)隊通過數(shù)學(xué)推導(dǎo)發(fā)現(xiàn),殘差連接在深度方向的信息聚合問題,與循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)在時間方向的信息衰減具有相同的數(shù)學(xué)結(jié)構(gòu)?;谶@個洞察,他們創(chuàng)造性地將Transformer的注意力機(jī)制從序列維度旋轉(zhuǎn)90度,應(yīng)用到網(wǎng)絡(luò)深度維度。新設(shè)計的AttnRes模塊為每層配備動態(tài)查詢向量,使模型能夠自主選擇需要參考的前序?qū)有畔?,就像為每個神經(jīng)網(wǎng)絡(luò)層配備了智能信息篩選器。

在工程實(shí)現(xiàn)上,團(tuán)隊采用分塊注意力機(jī)制(Block AttnRes)解決大規(guī)模訓(xùn)練的內(nèi)存瓶頸。通過將128層網(wǎng)絡(luò)劃分為8個計算塊,在塊間使用注意力機(jī)制、塊內(nèi)保留傳統(tǒng)殘差連接,既保證了效果又控制了計算開銷。測試表明,這種設(shè)計在480億參數(shù)模型上僅增加4%訓(xùn)練成本,就實(shí)現(xiàn)了驗(yàn)證損失顯著下降。在博士級科學(xué)推理GPQA-Diamond基準(zhǔn)測試中,新模型準(zhǔn)確率提升7.5%,數(shù)學(xué)解題能力提升3.6%,代碼生成質(zhì)量提升3.1%。

這項突破的深層意義在于改變了模型架構(gòu)的設(shè)計范式。傳統(tǒng)模型偏好"寬而淺"的結(jié)構(gòu),而AttnRes技術(shù)使"窄而深"的架構(gòu)成為更優(yōu)選擇??梢暬治鲲@示,新模型訓(xùn)練過程中各層梯度分布更加均勻,有效解決了PreNorm結(jié)構(gòu)中后期層數(shù)值爆炸的問題。更值得關(guān)注的是,這種信息聚合方式的變革為跨模態(tài)訓(xùn)練開辟了新路徑,Kimi團(tuán)隊同期發(fā)布的Vision RL技術(shù)就通過類似機(jī)制,使純文本模型在視覺任務(wù)上的表現(xiàn)提升2.1%。

Kimi團(tuán)隊同步披露的系列創(chuàng)新顯示,這場底層技術(shù)革命正在全面展開。他們研發(fā)的MuonClip優(yōu)化器將計算效率提升至AdamW的兩倍,Kimi Linear架構(gòu)在超長上下文處理中實(shí)現(xiàn)5-6倍解碼加速。這些突破共同構(gòu)成了"Token效率×長上下文×智能體協(xié)作"的三維Scaling框架,標(biāo)志著大模型發(fā)展從資源堆砌轉(zhuǎn)向效率革命的新階段。正如研究團(tuán)隊在GitHub開源頁面所強(qiáng)調(diào)的:"當(dāng)別人忙著給通天塔添磚加瓦時,我們選擇重新夯實(shí)地基。"

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容