久久国产精品国产精品国产-青春草在线精品视频-长春欧亚卖场是哪个区-青青草视频在线你懂的-丰满人妻一区二区三区精品高清-国产精品久久久久久无码AV-韩国精品一区二区三区四区-韩国日本在线观看一区二区-av日韩天堂在线播放

發(fā)現(xiàn)者網(wǎng) 手機(jī)網(wǎng)站 站內(nèi)搜索
  • 洞察行業(yè)動向,賦能未來市場!發(fā)現(xiàn)者網(wǎng),商業(yè)視角的探索之旅!
發(fā)現(xiàn)商業(yè)評論 旗下
洞察商業(yè) 啟迪未來

英偉達(dá)DreamZero模型突破:跨具身遷移實(shí)現(xiàn),機(jī)器人通用智能迎來新篇章

   時(shí)間:2026-02-09 15:10 來源:快訊作者:陸辰風(fēng)

在具身智能領(lǐng)域,實(shí)現(xiàn)通用復(fù)雜任務(wù)的核心在于構(gòu)建完善的世界模型,但當(dāng)前大多數(shù)世界模型存在明顯短板——它們往往在特定硬件平臺上訓(xùn)練,缺乏跨具身遷移能力。這種局限性導(dǎo)致機(jī)器人學(xué)到的更多是“特定設(shè)備如何運(yùn)動”,而非“物理世界如何運(yùn)作”。為突破這一瓶頸,英偉達(dá)GEAR實(shí)驗(yàn)室提出名為DreamZero的創(chuàng)新方案,通過構(gòu)建基于視頻擴(kuò)散模型的“世界動作模型”(WAM),為機(jī)器人領(lǐng)域帶來突破性進(jìn)展。

DreamZero采用140億參數(shù)的自回歸視頻擴(kuò)散架構(gòu),通過聯(lián)合預(yù)測未來視頻幀與機(jī)器人動作,實(shí)現(xiàn)對物理規(guī)律的深度建模。與傳統(tǒng)視覺-語言-動作(VLA)模型不同,該方案直接以視頻作為世界狀態(tài)的稠密表示,無需依賴重復(fù)示范即可從異構(gòu)數(shù)據(jù)中學(xué)習(xí)多樣化技能。實(shí)驗(yàn)室負(fù)責(zé)人Jim Fan將其類比為機(jī)器人領(lǐng)域的“GPT-2時(shí)刻”——研究人員僅需輸入文本指令,機(jī)器人即可執(zhí)行從未見過的任務(wù),相關(guān)代碼已在GitHub開源。

實(shí)驗(yàn)數(shù)據(jù)顯示,在真實(shí)機(jī)器人場景中,DreamZero的泛化能力較現(xiàn)有最先進(jìn)VLA模型提升超2倍。面對完全未出現(xiàn)的任務(wù)(如解鞋帶、握手),其仍能達(dá)成39.5%的任務(wù)完成度,而傳統(tǒng)模型因過度擬合“抓取-放置”等主導(dǎo)訓(xùn)練行為,在新任務(wù)上表現(xiàn)乏力。研究團(tuán)隊(duì)通過6種測試場景驗(yàn)證模型能力:在AgiBot預(yù)訓(xùn)練中,模型在未見對象的新環(huán)境中取得62.2%的平均進(jìn)度;在異構(gòu)數(shù)據(jù)集DROID上,面對未出現(xiàn)動詞的任務(wù)仍保持49%的完成度;經(jīng)過任務(wù)特定微調(diào)后,模型在疊襯衫、裝水果等場景中仍保持跨環(huán)境泛化能力。

跨具身遷移是該模型的核心突破。實(shí)驗(yàn)表明,僅需10-20分鐘的人類或機(jī)器人視頻示范,DreamZero即可在全新任務(wù)上提升超42%性能;更驚人的是,通過30分鐘“玩耍數(shù)據(jù)”(55條軌跡)即可適配全新機(jī)器人,同時(shí)保持零樣本泛化能力。這種效率較傳統(tǒng)需要數(shù)百小時(shí)示范的方法提升數(shù)十倍,且無需針對新機(jī)器人進(jìn)行大規(guī)模重訓(xùn)。在交互式提示測試中,機(jī)器人能根據(jù)人類自然語言指令,在開放場景中完成扇漢堡、按電梯按鈕等復(fù)雜操作。

為解決視頻擴(kuò)散模型實(shí)時(shí)控制難題,研究團(tuán)隊(duì)通過三項(xiàng)關(guān)鍵優(yōu)化實(shí)現(xiàn)突破:采用基于Flow Matching的自回歸DiT主干網(wǎng)絡(luò),實(shí)現(xiàn)視頻幀與動作的緊密耦合;設(shè)計(jì)異步推理機(jī)制,將真實(shí)觀測反饋至KV緩存以防止誤差累積;開發(fā)動作塊平滑技術(shù),在16/4/1個(gè)擴(kuò)散步數(shù)下均能保持性能,最終實(shí)現(xiàn)150ms/動作塊的7Hz閉環(huán)控制。這種設(shè)計(jì)使高維潛空間中的多步去噪過程得以高效執(zhí)行,為視頻模型在實(shí)時(shí)控制場景的應(yīng)用開辟道路。

該研究證明,通過視頻與動作的聯(lián)合建模,機(jī)器人可繼承關(guān)于物理規(guī)律的先驗(yàn)知識,從而擺脫對特定設(shè)備的依賴。從非重復(fù)數(shù)據(jù)中高效學(xué)習(xí)、在開放場景中強(qiáng)泛化、僅依賴視頻完成跨具身遷移、對新機(jī)器人快速適配——這四大能力標(biāo)志著具身智能向通用化邁出關(guān)鍵一步。隨著模型在更多復(fù)雜場景中的壓力測試,基于視頻世界模型的新一代機(jī)器人基礎(chǔ)框架正展現(xiàn)出巨大潛力。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容