人妻初浣肠失禁アナル,国产成人精选在线不卡

機器人領域迎來重大突破——螞蟻靈波團隊近日開源了全球首個面向通用機器人控制的因果視頻-動作世界模型LingBot-VA，這項技術讓機器人首次具備"腦補未來"的能力。傳統(tǒng)機器人依賴"觀察-反應"模式，如同條件反射般執(zhí)行動作，而LingBot-VA通過自回歸視頻預測技術，在執(zhí)行動作前會先在腦海中推演未來數(shù)秒的畫面，這種"想象力決策"機制為機器人控制開辟了全新路徑。

該模型的核心創(chuàng)新在于解耦了傳統(tǒng)VLA（視覺-語言-動作）架構中的表征纏繞問題。研究團隊采用"先想象世界，再反推動作"的兩步策略：首先通過視頻世界模型預測未來視覺狀態(tài)，再利用逆向動力學模型推導所需動作。這種設計使機器人能夠完成三類高難度任務：在長時序任務中（如準備早餐），機器人可精準記憶操作步驟；高精度任務中（如擦拭試管），動作精度達到毫米級；面對可變形物體（如折疊衣物），能通過視頻推演預判物體形變。真機測試顯示，機器人完成擰螺絲任務時，動作流暢度與人類操作幾乎無異。

技術實現(xiàn)層面，團隊在三個維度取得突破。架構設計上，視頻Token與動作Token構成自回歸交錯序列，配合因果注意力機制確保模型只能使用歷史信息。通過KV-cache技術賦予模型長期記憶能力，使其能清晰追溯三步前的操作狀態(tài)。在模型分工方面，Mixture-of-Transformers架構將視覺推演與動作控制分離：視頻流負責復雜視覺分析，動作流專注精準運動控制，兩者通過共享注意力機制實現(xiàn)信息互通。工程優(yōu)化環(huán)節(jié)，部分去噪技術允許模型從含噪中間狀態(tài)提取關鍵信息，異步推理機制使動作計算與執(zhí)行并行進行，F(xiàn)DM接地技術則通過真實數(shù)據(jù)持續(xù)校正模型想象，防止出現(xiàn)脫離現(xiàn)實的幻覺。

在RoboTwin 2.0雙臂協(xié)作基準測試中，LingBot-VA展現(xiàn)出顯著優(yōu)勢：簡單場景成功率達92.93%，復雜場景成功率91.55%，分別超出第二名4.2%和4.6%。隨著任務難度增加，其領先幅度擴大至9%以上。在LIBERO基準測試中，該模型更以98.5%的平均成功率刷新紀錄。實驗數(shù)據(jù)顯示，LingBot-VA具有三大核心能力：長期記憶能力使其在計數(shù)任務中精準記錄操作次數(shù)；少樣本適應能力僅需50條演示數(shù)據(jù)即可掌握新任務；泛化能力允許模型識別并操作不同顏色、形狀或擺放位置的同類物體。

此次開源是螞蟻靈波四天技術發(fā)布計劃的收官之作。此前三天，團隊已陸續(xù)開源LingBot-Depth（增強視覺感知）、LingBot-VLA（打通語言視覺動作接口）、LingBot-World（構建可預測世界模型）三個項目。四者構成完整技術鏈條：從清晰感知到理解世界，從構建想象到指導行動，推動通用機器人進入視頻推理時代。這種技術范式已引發(fā)行業(yè)連鎖反應，谷歌Project Genie項目、宇樹科技UnifoLM-VLA-0等相繼開源，海外媒體評價稱："螞蟻集團通過完整開源工具包，在全球機器人領域主導權爭奪中邁出戰(zhàn)略性一步。"

螞蟻靈波再發(fā)力！LingBot-VA讓機器人“腦補”未來，通用機器人迎新突破

螞蟻靈波再發(fā)力！LingBot-VA讓機器人“腦補”未來，通用機器人迎新突破