久久国产精品国产精品国产-青春草在线精品视频-长春欧亚卖场是哪个区-青青草视频在线你懂的-丰满人妻一区二区三区精品高清-国产精品久久久久久无码AV-韩国精品一区二区三区四区-韩国日本在线观看一区二区-av日韩天堂在线播放

發(fā)現(xiàn)者網(wǎng) 手機(jī)網(wǎng)站 站內(nèi)搜索
  • 洞察行業(yè)動(dòng)向,賦能未來(lái)市場(chǎng)!發(fā)現(xiàn)者網(wǎng),商業(yè)視角的探索之旅!
發(fā)現(xiàn)商業(yè)評(píng)論 旗下
洞察商業(yè) 啟迪未來(lái)

DeepSeek新年發(fā)力:梁文鋒參與論文發(fā)布,mHC技術(shù)或引領(lǐng)大模型新方向

   時(shí)間:2026-01-03 18:25 來(lái)源:快訊作者:楊凌霄

在人工智能領(lǐng)域,一項(xiàng)名為mHC(流形約束超連接)的新架構(gòu)技術(shù)引發(fā)了廣泛關(guān)注。這項(xiàng)由DeepSeek團(tuán)隊(duì)提出的技術(shù),旨在解決傳統(tǒng)超連接在大規(guī)模模型訓(xùn)練中面臨的不穩(wěn)定性難題,為深度神經(jīng)網(wǎng)絡(luò)的發(fā)展開(kāi)辟了新的路徑。

自2016年何愷明提出“殘差連接”以來(lái),這種允許信息“走捷徑”的設(shè)計(jì)便成為構(gòu)建深度神經(jīng)網(wǎng)絡(luò)的核心方法。它通過(guò)在神經(jīng)網(wǎng)絡(luò)中設(shè)置“快捷通道”,讓信息能夠跳過(guò)某些層,有效緩解了深層網(wǎng)絡(luò)訓(xùn)練困難的問(wèn)題。近年來(lái),超連接技術(shù)在此基礎(chǔ)上進(jìn)一步發(fā)展,增加了更多并行的“道路”和連接方式,試圖進(jìn)一步提升網(wǎng)絡(luò)的性能。然而,這種增強(qiáng)并非毫無(wú)代價(jià),它削弱了神經(jīng)網(wǎng)絡(luò)“原樣傳遞”信息的能力,導(dǎo)致訓(xùn)練過(guò)程變得不穩(wěn)定,尤其是在模型規(guī)模不斷擴(kuò)大的情況下,這一問(wèn)題愈發(fā)突出。

mHC技術(shù)的出現(xiàn),為解決這一難題提供了新的思路。其核心在于通過(guò)數(shù)學(xué)方法,將復(fù)雜的連接方式約束在特定的“形狀”空間內(nèi),也就是流形空間。流形可以理解為一種特定形狀的曲面或空間結(jié)構(gòu),通過(guò)這種約束,mHC技術(shù)恢復(fù)了神經(jīng)網(wǎng)絡(luò)穩(wěn)定傳遞信息的能力,即恒等映射特性。恒等映射特性指的是神經(jīng)網(wǎng)絡(luò)能夠“原樣”傳遞輸入信息的能力,這是訓(xùn)練穩(wěn)定的關(guān)鍵所在。

實(shí)驗(yàn)數(shù)據(jù)充分證明了mHC技術(shù)的有效性。在擁有27B參數(shù)的混合專(zhuān)家模型上,mHC展現(xiàn)出了穩(wěn)定的訓(xùn)練曲線。與基線相比,最終損失降低了0.021,同時(shí)在BBH推理任務(wù)上,相比傳統(tǒng)HC提升了2.1%。這一成果表明,mHC技術(shù)不僅在理論上具有創(chuàng)新性,在實(shí)際應(yīng)用中也具有顯著的優(yōu)勢(shì)。

除了理論上的突破,DeepSeek團(tuán)隊(duì)還為mHC架構(gòu)開(kāi)發(fā)了一系列基礎(chǔ)設(shè)施優(yōu)化措施。他們利用TileLang框架實(shí)現(xiàn)了多個(gè)融合內(nèi)核,將原本分散的操作合并執(zhí)行,從而減少了內(nèi)存訪問(wèn)次數(shù),提高了計(jì)算效率。針對(duì)Sinkhorn - Knopp算法,團(tuán)隊(duì)設(shè)計(jì)了專(zhuān)門(mén)的前向和反向內(nèi)核,在芯片上重新計(jì)算中間結(jié)果,避免了存儲(chǔ)開(kāi)銷(xiāo)。在流水線并行方面,團(tuán)隊(duì)擴(kuò)展了DualPipe調(diào)度策略,通過(guò)將MLP層的特定內(nèi)核放在高優(yōu)先級(jí)計(jì)算流上執(zhí)行,實(shí)現(xiàn)了計(jì)算與通信的重疊,進(jìn)一步提升了系統(tǒng)的整體性能。

這些優(yōu)化措施使得mHC在保持性能優(yōu)勢(shì)的同時(shí),顯著減少了額外開(kāi)銷(xiāo),為大規(guī)模模型的訓(xùn)練和應(yīng)用提供了更加高效、穩(wěn)定的解決方案。mHC技術(shù)的成功研發(fā),對(duì)人工智能行業(yè)產(chǎn)生了深遠(yuǎn)的影響。訓(xùn)練穩(wěn)定性和可擴(kuò)展性的提升,使得大模型在更復(fù)雜的場(chǎng)景中落地成為可能。例如,需要超大規(guī)模參數(shù)的多模態(tài)模型、工業(yè)級(jí)的智能決策系統(tǒng)等,都能夠從mHC技術(shù)中受益。特別是對(duì)于算力有限的中小AI企業(yè)而言,這意味著他們能夠嘗試開(kāi)發(fā)更復(fù)雜的大模型,降低了大模型研發(fā)的門(mén)檻,為行業(yè)的多元化發(fā)展注入了新的活力。

在論文的結(jié)論與展望部分,研究人員指出,mHC作為HC范式的廣義拓展,為未來(lái)研究開(kāi)辟了多個(gè)重要方向。通過(guò)深化對(duì)拓?fù)浣Y(jié)構(gòu)如何影響優(yōu)化與表征學(xué)習(xí)的理解,mHC有望突破現(xiàn)有局限,為下一代基礎(chǔ)架構(gòu)的演進(jìn)指明新的路徑。目前,行業(yè)內(nèi)人士已經(jīng)開(kāi)始預(yù)測(cè),這項(xiàng)創(chuàng)新技術(shù)或?qū)?yīng)用到DeepSeek下一代模型中,有望帶來(lái)比肩國(guó)際頂尖水平的性能突破,進(jìn)一步推動(dòng)人工智能技術(shù)的發(fā)展。

 
 
更多>同類(lèi)內(nèi)容
全站最新
熱門(mén)內(nèi)容