久久国产精品国产精品国产-青春草在线精品视频-长春欧亚卖场是哪个区-青青草视频在线你懂的-丰满人妻一区二区三区精品高清-国产精品久久久久久无码AV-韩国精品一区二区三区四区-韩国日本在线观看一区二区-av日韩天堂在线播放

發(fā)現(xiàn)者網(wǎng) 手機網(wǎng)站 站內(nèi)搜索
  • 洞察行業(yè)動向,賦能未來市場!發(fā)現(xiàn)者網(wǎng),商業(yè)視角的探索之旅!
發(fā)現(xiàn)商業(yè)評論 旗下
洞察商業(yè) 啟迪未來

國產(chǎn)IB路線突圍:以自主創(chuàng)新重塑AI基礎(chǔ)設(shè)施的萬卡時代新格局

   時間:2026-03-17 13:10 來源:快訊作者:江紫萱

近年來,隨著人工智能大模型訓(xùn)練規(guī)模從千卡邁向萬卡甚至十萬卡,算力集群的互聯(lián)網(wǎng)絡(luò)正從幕后走向臺前,成為決定系統(tǒng)效能的核心要素。過去,行業(yè)普遍認為GPU數(shù)量是制約訓(xùn)練效率的關(guān)鍵,但實踐表明,當(dāng)計算節(jié)點突破萬卡規(guī)模后,節(jié)點間的數(shù)據(jù)通信延遲與帶寬瓶頸,往往導(dǎo)致算力利用率不足50%,部分極端場景下通信開銷甚至占據(jù)總訓(xùn)練時間的半壁江山。這種“算力黑洞”現(xiàn)象,迫使全球AI基礎(chǔ)設(shè)施領(lǐng)域掀起一場關(guān)于高速互聯(lián)技術(shù)的革命。

傳統(tǒng)上,InfiniBand架構(gòu)憑借低延遲、高帶寬的優(yōu)勢,長期主導(dǎo)高性能計算互聯(lián)市場,全球超60%的超級計算機采用該技術(shù)。然而,當(dāng)AI訓(xùn)練邁入十萬卡時代,其設(shè)計缺陷逐漸暴露:單子網(wǎng)規(guī)模受地址空間限制難以突破五萬卡,且產(chǎn)業(yè)鏈高度依賴海外廠商,從高速SerDes IP到交換芯片均被少數(shù)企業(yè)壟斷。這種技術(shù)封鎖與規(guī)模瓶頸的雙重壓力,倒逼國內(nèi)探索自主可控的RDMA網(wǎng)絡(luò)技術(shù)路徑。

以中科曙光研發(fā)的scaleFabric為例,這條被業(yè)界稱為“國產(chǎn)IB”的技術(shù)路線,選擇從底層芯片到軟件棧全棧自研。其核心芯片包括400G RDMA網(wǎng)卡與高性能交換芯片,均基于自主研發(fā)的112G SerDes技術(shù),實現(xiàn)單端口帶寬397Gbps、端到端延遲0.9微秒的硬指標,達到國際主流NDR InfiniBand水平。更關(guān)鍵的是,通過重構(gòu)網(wǎng)絡(luò)地址編碼與路由體系,scaleFabric將單子網(wǎng)規(guī)模擴展至11萬卡,較傳統(tǒng)架構(gòu)提升2.3倍,為未來更大規(guī)模集群預(yù)留了技術(shù)空間。

在鄭州萬卡集群項目中,這套國產(chǎn)網(wǎng)絡(luò)展現(xiàn)了驚人的工程能力。從設(shè)備進場到訓(xùn)練任務(wù)啟動僅用30小時,較傳統(tǒng)方案縮短70%部署周期。其秘密在于自動化運維體系:通過數(shù)字孿生技術(shù)實時映射物理網(wǎng)絡(luò)狀態(tài),結(jié)合主動壓測與集中版本管理,將鏈路校準、參數(shù)調(diào)優(yōu)等繁瑣工作轉(zhuǎn)化為標準化流程。這種“交付難度曲線壓平”的突破,讓運維團隊得以同時管理多個萬卡集群,徹底改變了AI基礎(chǔ)設(shè)施的工程實踐范式。

針對AI訓(xùn)練特有的通信模式,scaleFabric創(chuàng)新性地提出iLossless智能無損網(wǎng)絡(luò)與SuperTunnel通信優(yōu)化體系。在輻照材料分子動力學(xué)模擬等場景中,萬卡集群并行效率維持在80%-86%;堆芯流體力學(xué)測試中,通信開銷從50%壓縮至10%,徹底解決了傳統(tǒng)以太網(wǎng)方案在大規(guī)模場景下的擁塞風(fēng)暴問題。更值得關(guān)注的是其“可定義網(wǎng)絡(luò)”能力——通過開放硬件接口與協(xié)議棧,系統(tǒng)可針對自動駕駛、科研超算等場景,動態(tài)分配存儲I/O與計算同步帶寬,實現(xiàn)算力、存儲與網(wǎng)絡(luò)的深度協(xié)同。

這場互聯(lián)網(wǎng)絡(luò)革命的影響遠超技術(shù)層面。當(dāng)算力、存儲與網(wǎng)絡(luò)三大子系統(tǒng)均實現(xiàn)自主可控后,中國AI基礎(chǔ)設(shè)施正從“替代進口”轉(zhuǎn)向“重構(gòu)邊界”。例如,傳統(tǒng)集群設(shè)計受限于InfiniBand的五萬卡規(guī)模上限,而國產(chǎn)方案將這一邊界推至11萬卡,為區(qū)域級乃至跨中心AI集群鋪平道路。在產(chǎn)業(yè)生態(tài)層面,自主標準正推動形成開放互聯(lián)規(guī)范,使不同廠商的芯片、服務(wù)器與存儲系統(tǒng)能夠在統(tǒng)一框架下協(xié)同演進,避免整個產(chǎn)業(yè)受制于單一封閉協(xié)議。

目前,國產(chǎn)RDMA網(wǎng)絡(luò)已在國內(nèi)多個智算中心落地,其高密度端口、低組網(wǎng)成本與靈活擴展性,正在重塑AI基礎(chǔ)設(shè)施的成本結(jié)構(gòu)與工程模式。隨著下一代交換芯片研發(fā)提速,中國正以scaleFabric為支點,定義符合自身產(chǎn)業(yè)需求的技術(shù)標準。這條路徑或許不同于西方傳統(tǒng)方案,但正如某架構(gòu)師所言:“技術(shù)攀登的終點是相同的,區(qū)別在于我們選擇用自己的方式翻越算力巔峰?!?/p>

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容