久久国产精品国产精品国产-青春草在线精品视频-长春欧亚卖场是哪个区-青青草视频在线你懂的-丰满人妻一区二区三区精品高清-国产精品久久久久久无码AV-韩国精品一区二区三区四区-韩国日本在线观看一区二区-av日韩天堂在线播放

發(fā)現(xiàn)者網(wǎng) 手機網(wǎng)站 站內(nèi)搜索
  • 洞察行業(yè)動向,賦能未來市場!發(fā)現(xiàn)者網(wǎng),商業(yè)視角的探索之旅!
發(fā)現(xiàn)商業(yè)評論 旗下
洞察商業(yè) 啟迪未來

小米發(fā)布并開源首款機器人VLA大模型Xiaomi-Robotics-0 刷新具身智能多項紀錄

   時間:2026-02-12 19:16 來源:快訊作者:蘇婉清

小米近日在具身智能領(lǐng)域邁出重要一步,正式推出并開源首款機器人視覺語言動作(VLA)大模型Xiaomi-Robotics-0。該模型以47億參數(shù)規(guī)模實現(xiàn)視覺語言理解與實時動作執(zhí)行的深度融合,在消費級顯卡上即可完成毫秒級推理,成功突破傳統(tǒng)VLA模型因延遲導(dǎo)致的物理世界交互瓶頸,多項性能指標刷新行業(yè)紀錄。

針對現(xiàn)有VLA模型普遍存在的"大腦發(fā)達但肢體遲緩"問題,研發(fā)團隊創(chuàng)新采用MoT混合架構(gòu)構(gòu)建雙核心體系。其中多模態(tài)視覺語言大模型(VLM)作為認知中樞,可解析人類模糊指令并精準識別三維空間關(guān)系;多層擴散Transformer(DiT)構(gòu)成的運動控制模塊則通過"動作塊"生成技術(shù),將復(fù)雜動作拆解為高頻執(zhí)行單元,配合流匹配算法實現(xiàn)肢體運動的毫米級精度控制。這種"認知-執(zhí)行"分離設(shè)計使機器人既能理解"把水杯遞給穿紅衣服的人"這類抽象指令,又能流暢完成抓取、遞送等連續(xù)動作。

在訓(xùn)練體系構(gòu)建上,小米開創(chuàng)性設(shè)計兩階段強化方案??缒B(tài)預(yù)訓(xùn)練階段通過Action Proposal機制建立視覺特征與動作空間的映射關(guān)系,在凍結(jié)VLM參數(shù)的同時專項優(yōu)化DiT模塊,確保模型同時具備物體識別、邏輯推理等基礎(chǔ)能力與操作技能。后訓(xùn)練階段引入異步推理框架破解真機部署難題,Clean Action Prefix技術(shù)保障動作序列的連貫性,Λ-shape注意力掩碼則使模型更聚焦實時視覺反饋,環(huán)境適應(yīng)速度提升3倍以上。

目前該項目已實現(xiàn)全面開源,技術(shù)文檔、訓(xùn)練代碼及預(yù)訓(xùn)練權(quán)重均對外開放。小米機器人實驗室同步啟動全球人才招募計劃,重點引進多模態(tài)學(xué)習(xí)、運動控制、人機交互等領(lǐng)域的頂尖專家,持續(xù)探索物理世界與數(shù)字智能的融合邊界。此次開源不僅為學(xué)術(shù)界提供先進研究基線,更為工業(yè)界落地具身智能應(yīng)用掃清關(guān)鍵技術(shù)障礙。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容