久久国产精品国产精品国产-青春草在线精品视频-长春欧亚卖场是哪个区-青青草视频在线你懂的-丰满人妻一区二区三区精品高清-国产精品久久久久久无码AV-韩国精品一区二区三区四区-韩国日本在线观看一区二区-av日韩天堂在线播放

發(fā)現(xiàn)者網 手機網站 站內搜索
  • 洞察行業(yè)動向,賦能未來市場!發(fā)現(xiàn)者網,商業(yè)視角的探索之旅!
發(fā)現(xiàn)商業(yè)評論 旗下
洞察商業(yè) 啟迪未來

螞蟻靈波再發(fā)力!LingBot-VA讓機器人“腦補”未來,通用機器人迎新突破

   時間:2026-01-31 03:39 來源:快訊作者:任飛揚

機器人領域迎來重大突破——螞蟻靈波團隊近日開源了全球首個面向通用機器人控制的因果視頻-動作世界模型LingBot-VA,這項技術讓機器人首次具備"腦補未來"的能力。傳統(tǒng)機器人依賴"觀察-反應"模式,如同條件反射般執(zhí)行動作,而LingBot-VA通過自回歸視頻預測技術,在執(zhí)行動作前會先在腦海中推演未來數(shù)秒的畫面,這種"想象力決策"機制為機器人控制開辟了全新路徑。

該模型的核心創(chuàng)新在于解耦了傳統(tǒng)VLA(視覺-語言-動作)架構中的表征纏繞問題。研究團隊采用"先想象世界,再反推動作"的兩步策略:首先通過視頻世界模型預測未來視覺狀態(tài),再利用逆向動力學模型推導所需動作。這種設計使機器人能夠完成三類高難度任務:在長時序任務中(如準備早餐),機器人可精準記憶操作步驟;高精度任務中(如擦拭試管),動作精度達到毫米級;面對可變形物體(如折疊衣物),能通過視頻推演預判物體形變。真機測試顯示,機器人完成擰螺絲任務時,動作流暢度與人類操作幾乎無異。

技術實現(xiàn)層面,團隊在三個維度取得突破。架構設計上,視頻Token與動作Token構成自回歸交錯序列,配合因果注意力機制確保模型只能使用歷史信息。通過KV-cache技術賦予模型長期記憶能力,使其能清晰追溯三步前的操作狀態(tài)。在模型分工方面,Mixture-of-Transformers架構將視覺推演與動作控制分離:視頻流負責復雜視覺分析,動作流專注精準運動控制,兩者通過共享注意力機制實現(xiàn)信息互通。工程優(yōu)化環(huán)節(jié),部分去噪技術允許模型從含噪中間狀態(tài)提取關鍵信息,異步推理機制使動作計算與執(zhí)行并行進行,F(xiàn)DM接地技術則通過真實數(shù)據(jù)持續(xù)校正模型想象,防止出現(xiàn)脫離現(xiàn)實的幻覺。

在RoboTwin 2.0雙臂協(xié)作基準測試中,LingBot-VA展現(xiàn)出顯著優(yōu)勢:簡單場景成功率達92.93%,復雜場景成功率91.55%,分別超出第二名4.2%和4.6%。隨著任務難度增加,其領先幅度擴大至9%以上。在LIBERO基準測試中,該模型更以98.5%的平均成功率刷新紀錄。實驗數(shù)據(jù)顯示,LingBot-VA具有三大核心能力:長期記憶能力使其在計數(shù)任務中精準記錄操作次數(shù);少樣本適應能力僅需50條演示數(shù)據(jù)即可掌握新任務;泛化能力允許模型識別并操作不同顏色、形狀或擺放位置的同類物體。

此次開源是螞蟻靈波四天技術發(fā)布計劃的收官之作。此前三天,團隊已陸續(xù)開源LingBot-Depth(增強視覺感知)、LingBot-VLA(打通語言視覺動作接口)、LingBot-World(構建可預測世界模型)三個項目。四者構成完整技術鏈條:從清晰感知到理解世界,從構建想象到指導行動,推動通用機器人進入視頻推理時代。這種技術范式已引發(fā)行業(yè)連鎖反應,谷歌Project Genie項目、宇樹科技UnifoLM-VLA-0等相繼開源,海外媒體評價稱:"螞蟻集團通過完整開源工具包,在全球機器人領域主導權爭奪中邁出戰(zhàn)略性一步。"

 
 
更多>同類內容
全站最新
熱門內容