久久国产精品国产精品国产-青春草在线精品视频-长春欧亚卖场是哪个区-青青草视频在线你懂的-丰满人妻一区二区三区精品高清-国产精品久久久久久无码AV-韩国精品一区二区三区四区-韩国日本在线观看一区二区-av日韩天堂在线播放

發(fā)現(xiàn)者網(wǎng) 手機網(wǎng)站 站內(nèi)搜索
  • 洞察行業(yè)動向,賦能未來市場!發(fā)現(xiàn)者網(wǎng),商業(yè)視角的探索之旅!
發(fā)現(xiàn)商業(yè)評論 旗下
洞察商業(yè) 啟迪未來

上海AI實驗室InternVLA-M1:為機器人裝上“空間智慧大腦”

   時間:2025-11-25 01:01 來源:快訊作者:趙云飛

上海人工智能實驗室Intern Robotics團隊近日宣布,其開發(fā)的統(tǒng)一視覺-語言-動作框架InternVLA-M1取得重大突破。這項發(fā)表于arXiv平臺的研究(編號:2510.13778v1)通過創(chuàng)新的空間引導訓練策略,成功解決了機器人理解復雜指令并精準執(zhí)行動作的難題。實驗數(shù)據(jù)顯示,該系統(tǒng)在多個基準測試中超越現(xiàn)有方法,特別是在真實世界雜亂環(huán)境中的表現(xiàn)提升超過20%,為通用機器人研發(fā)開辟了新路徑。

傳統(tǒng)機器人系統(tǒng)在執(zhí)行"將桌上紅色蘋果放入籃子"這類任務時面臨雙重挑戰(zhàn):既要理解人類語言的模糊性,又需在三維空間中精準定位物體。研究團隊提出的解決方案借鑒人類認知模式,構建了包含41億參數(shù)的雙系統(tǒng)架構。該系統(tǒng)由VLM規(guī)劃器和動作專家組成,前者負責分析任務要求、識別物體位置并制定行動計劃,后者則將高層規(guī)劃轉化為精確的機械臂控制信號。這種分工模式使系統(tǒng)在單張RTX 4090顯卡上即可實現(xiàn)每秒10幀的推理速度,內(nèi)存占用控制在12GB以內(nèi)。

訓練策略的創(chuàng)新是該研究的核心突破。團隊采用分階段訓練法:首先通過230萬個空間推理樣本構建基礎能力,涵蓋物體檢測、點定位、軌跡預測等核心任務;隨后在仿真環(huán)境中生成24.4萬個可泛化場景,訓練系統(tǒng)將空間理解轉化為具體動作。這種"先理解空間再執(zhí)行動作"的策略,使系統(tǒng)在SimplerEnv測試中成功率提升14.6%,在真實世界雜亂場景中的表現(xiàn)提升達20.6%。特別是在長時程任務中,系統(tǒng)展現(xiàn)出強大的規(guī)劃能力,能動態(tài)調(diào)整策略應對物理干擾和任務變更。

為支撐大規(guī)模訓練需求,研究團隊構建了高度逼真的仿真平臺。該平臺整合14716個物體模型、200余張桌子、80種光照條件和1676種紋理,通過分離物理計算與渲染過程,實現(xiàn)高效數(shù)據(jù)生成。每個訓練樣本都經(jīng)過雙重驗證:物理引擎確保動作可行性,場景圖驗證器檢查任務完成度。這種嚴格的質(zhì)量控制機制,使系統(tǒng)在未見物體和新配置場景中仍能保持穩(wěn)定性能,顯著提升了仿真到現(xiàn)實的遷移能力。

在評估環(huán)節(jié),InternVLA-M1展現(xiàn)了全方位優(yōu)勢。在LIBERO基準測試中,系統(tǒng)在空間推理和長時程任務子集上分別達到98.2%和97.5%的成功率,超越最強基線方法1.6個百分點。真實世界測試中,配備Robotiq夾爪的Franka機械臂在23個已見物體和5個已見容器的分類任務中,通過協(xié)同訓練將未見物體操作成功率提升至20.6%。特別在抽屜操作任務中,系統(tǒng)能實時感知人為干預并調(diào)整動作序列,展現(xiàn)出強大的環(huán)境適應能力。

技術細節(jié)方面,研究團隊設計了輕量級查詢變換器連接雙系統(tǒng),通過梯度衰減因子平衡多模態(tài)知識學習??臻g提示策略的引入,使系統(tǒng)在執(zhí)行任務時自動激活預訓練的空間感知能力。雙重監(jiān)督機制則確保VLM規(guī)劃器與動作專家協(xié)同優(yōu)化,在保持語義推理能力的同時實現(xiàn)高效端到端訓練。這些創(chuàng)新使系統(tǒng)在處理絕對/相對位置指令時表現(xiàn)出色,有效解決了數(shù)據(jù)驅(qū)動模型泛化不足的問題。

該研究的公開資源為后續(xù)研究奠定基礎。團隊不僅發(fā)布了完整代碼和模型參數(shù),還開源了包含300萬個多模態(tài)樣本的訓練數(shù)據(jù)集。詳細的評估基準覆蓋從簡單抓取到復雜推理的200余個任務,為機器人學習領域提供了標準化測試平臺。隨著技術持續(xù)完善,這種空間引導訓練范式有望推動通用機器人進入更多實際應用場景,實現(xiàn)更自然的人機協(xié)作。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容