久久国产精品国产精品国产-青春草在线精品视频-长春欧亚卖场是哪个区-青青草视频在线你懂的-丰满人妻一区二区三区精品高清-国产精品久久久久久无码AV-韩国精品一区二区三区四区-韩国日本在线观看一区二区-av日韩天堂在线播放

發(fā)現(xiàn)者網(wǎng) 手機(jī)網(wǎng)站 站內(nèi)搜索
  • 洞察行業(yè)動(dòng)向,賦能未來(lái)市場(chǎng)!發(fā)現(xiàn)者網(wǎng),商業(yè)視角的探索之旅!
發(fā)現(xiàn)商業(yè)評(píng)論 旗下
洞察商業(yè) 啟迪未來(lái)

DeepSeek聯(lián)合頂尖高校發(fā)布新論文,DualPath架構(gòu)破解LLM推理性能瓶頸

   時(shí)間:2026-02-28 01:07 來(lái)源:互聯(lián)網(wǎng)作者:唐云澤

研究團(tuán)隊(duì)通過(guò)實(shí)證分析發(fā)現(xiàn),在典型編程任務(wù)場(chǎng)景中,智能體平均需要完成157輪交互,上下文長(zhǎng)度累計(jì)達(dá)32.7K個(gè)語(yǔ)言單元,但每輪新增內(nèi)容僅429個(gè)單元。這種"長(zhǎng)上下文、短增量"的特性,使得鍵值緩存(KV-Cache)的加載效率成為決定系統(tǒng)性能的關(guān)鍵因素。實(shí)驗(yàn)數(shù)據(jù)顯示,現(xiàn)有架構(gòu)中存儲(chǔ)帶寬利用率存在嚴(yán)重失衡——預(yù)填充引擎的帶寬資源長(zhǎng)期處于滿負(fù)荷狀態(tài),而解碼引擎的帶寬資源卻有90%以上處于閑置狀態(tài)。

硬件發(fā)展趨勢(shì)進(jìn)一步加劇了這種矛盾。以英偉達(dá)GPU架構(gòu)演進(jìn)為例,從Ampere到Blackwell架構(gòu),計(jì)算性能提升了14.4倍,但存儲(chǔ)帶寬和顯存容量的增長(zhǎng)幅度不足3倍。這種計(jì)算與存儲(chǔ)能力發(fā)展的非對(duì)稱性,導(dǎo)致傳統(tǒng)預(yù)填充-解碼分離架構(gòu)的吞吐量提升遭遇天花板。

該架構(gòu)的實(shí)現(xiàn)面臨三大技術(shù)挑戰(zhàn):首先是數(shù)據(jù)傳輸粒度控制,研究團(tuán)隊(duì)設(shè)計(jì)了分層塊傳輸機(jī)制,將緩存數(shù)據(jù)切割為不同粒度的傳輸單元,使網(wǎng)絡(luò)開銷降低60%;其次是流量隔離技術(shù),通過(guò)引入中心化網(wǎng)絡(luò)控制器和InfiniBand虛擬通道,確保關(guān)鍵計(jì)算任務(wù)不受數(shù)據(jù)加載影響;最后是動(dòng)態(tài)調(diào)度算法,系統(tǒng)實(shí)時(shí)監(jiān)測(cè)GPU負(fù)載、網(wǎng)絡(luò)狀態(tài)和任務(wù)特征,自動(dòng)調(diào)整預(yù)填充與解碼模塊的資源分配比例。

性能評(píng)估顯示,在包含6600億參數(shù)的DeepSeek-V3.2模型測(cè)試中,新架構(gòu)在離線批處理場(chǎng)景下實(shí)現(xiàn)1.87倍吞吐量提升,在線服務(wù)場(chǎng)景的智能體處理能力提升近2倍。更值得關(guān)注的是其擴(kuò)展性表現(xiàn):在由1152塊GPU組成的集群測(cè)試中,系統(tǒng)從8節(jié)點(diǎn)擴(kuò)展到144節(jié)點(diǎn)時(shí),性能提升幅度達(dá)到理論值的92%,且延遲波動(dòng)控制在5%以內(nèi)。在44個(gè)預(yù)填充引擎+88個(gè)解碼引擎的配置下,系統(tǒng)吞吐量較基線系統(tǒng)提升22倍。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容