久久国产精品国产精品国产-青春草在线精品视频-长春欧亚卖场是哪个区-青青草视频在线你懂的-丰满人妻一区二区三区精品高清-国产精品久久久久久无码AV-韩国精品一区二区三区四区-韩国日本在线观看一区二区-av日韩天堂在线播放

發(fā)現(xiàn)者網(wǎng) 手機網(wǎng)站 站內(nèi)搜索
  • 洞察行業(yè)動向,賦能未來市場!發(fā)現(xiàn)者網(wǎng),商業(yè)視角的探索之旅!
發(fā)現(xiàn)商業(yè)評論 旗下
洞察商業(yè) 啟迪未來

英偉達Fast-ThinkAct:讓機器人“心算”決策,速度飆升還更精準!

   時間:2026-01-22 19:46 來源:快訊作者:趙云飛

在咖啡店忙碌的場景中,咖啡師能高效處理復雜訂單,無需逐字念出制作流程,這種內(nèi)化的思考方式讓工作得以流暢進行。如今,英偉達的研究人員正將這種高效思維模式引入機器人領(lǐng)域。他們發(fā)布的Fast-ThinkAct研究,為機器人大腦帶來了一次關(guān)鍵升級,使其在處理復雜任務(wù)時既快速又精準。

過去幾年,視覺-語言-動作模型(VLA)是人工智能領(lǐng)域的熱門方向。這類模型為機器人賦予了“超級大腦”,使其能接收口頭指令,觀察環(huán)境并規(guī)劃動作完成任務(wù)。然而,最新研究發(fā)現(xiàn),讓機器人在行動前先進行類似人類打草稿的推理,能顯著提升其完成復雜任務(wù)的能力。這種鏈式思維(CoT)方法,讓機器人像寫作文一樣逐步推導,但問題也隨之而來。

一個會思考的機器人在做決定前,可能需要生成約250個詞元的推理文字。在真實場景中,這種延遲是難以接受的。以工廠里的機器人手臂為例,它每秒需做出1到15次決策,若每次決策都要幾秒思考,生產(chǎn)線將嚴重受阻。在輔助手術(shù)或緊急救援等對時間敏感的場景中,延遲更可能帶來安全隱患。

為解決這一問題,F(xiàn)ast-ThinkAct研究團隊提出創(chuàng)新方案:讓機器人學會“心算”,將冗長的推理過程壓縮成幾個緊湊的“念頭”,即“可言語化的潛在推理”,然后直接據(jù)此行動。實驗表明,F(xiàn)ast-ThinkAct將機器人的推理時間縮短了高達89.3%,同時任務(wù)表現(xiàn)不僅未下降,反而有所提升。

Fast-ThinkAct的工作原理可通過“老師-學生”故事來理解。研究團隊先訓練一個教師模型,它面對機器人看到的場景和收到的指令,會生成完整的文字推理過程。例如,看到草莓在桌子右邊、抽屜在左前方時,教師模型會詳細規(guī)劃機械臂的移動步驟。該模型采用GRPO強化學習方法訓練,確保推理既合邏輯又能指導任務(wù)完成。教師生成的推理質(zhì)量參差不齊,這卻成為訓練學生模型的關(guān)鍵素材。

學生模型的任務(wù)是將教師的長篇推理濃縮成幾個連續(xù)的潛在詞元。當教師需生成約250個文字詞元時,學生只需生成6個潛在詞元。為確保壓縮后的推理質(zhì)量,研究團隊引入言語化器,它是一個小型語言模型,能將學生模型的抽象“精華”翻譯回人類可讀文字,以便研究人員檢查其是否學到教師推理的精髓。

訓練過程采用偏好學習策略,靈感來自DPO技術(shù)。研究團隊從教師模型生成的眾多推理版本中,挑出質(zhì)量最高和最低的配對,讓學生模型學習生成能被言語化器解碼為高質(zhì)量推理的精華。這就像訓練調(diào)酒師,讓其通過品嘗好酒和差酒的區(qū)別,真正理解好酒的味道。

除壓縮思考能力,機器人還需理解空間關(guān)系以完成實際任務(wù)。Fast-ThinkAct的第二個創(chuàng)新是視覺規(guī)劃的蒸餾。研究團隊引入動作對齊的視覺規(guī)劃蒸餾方法,教師模型在訓練中不僅學會語言推理,還學會用軌跡級獎勵指導自己,關(guān)注機器人手臂移動路徑的合理性。通過對齊教師和學生在關(guān)鍵位置的內(nèi)部表征,確保學生模型雖說話簡短,但對空間的理解不打折扣。

為提升效率,研究團隊還設(shè)計空間詞元機制。傳統(tǒng)教師模型預測機器人手臂運動軌跡時,需逐個生成途經(jīng)點坐標,描述5個路徑點可能要生成60到70個詞元。而學生模型使用5個專門的可學習空間詞元,每個空間詞元輸出通過簡單網(wǎng)絡(luò)層投影到路徑點坐標,大大提升了預測的并行性和速度。

有了壓縮推理和空間理解能力,最后一步是將這些智慧轉(zhuǎn)化為實際動作。Fast-ThinkAct框架的第三個核心組件是推理增強的策略學習。動作模型采用擴散Transformer架構(gòu),通過鍵值緩存提取學生模型處理空間詞元時產(chǎn)生的中間狀態(tài),作為視覺規(guī)劃上下文傳遞給動作模型。動作模型的注意力機制同時關(guān)注視覺規(guī)劃上下文和直接感知觀察,做出符合高級規(guī)劃又適應當前情況的動作決策。訓練動作模型時,學生模型和視覺編碼器參數(shù)凍結(jié),確保推理能力不被遺忘,動作模型專注于執(zhí)行力提升。

實驗驗證了Fast-ThinkAct的出色效果。與當時最先進的推理VLA模型ThinkAct-7B相比,F(xiàn)ast-ThinkAct推理延遲減少89.3%,每次決策時間從約7513毫秒降至約805毫秒,與同等規(guī)模的ThinkAct-3B相比也快了約7倍。在性能方面,F(xiàn)ast-ThinkAct在LIBERO基準測試中平均成功率達89.7%,超過所有對比方法;在SimplerEnv-Google測試中成功率達68.7%,略高于ThinkAct-7B;在更具挑戰(zhàn)性的RoboTwin2.0基準上,簡單模式平均成功率65.7%,困難模式26.4%,均超過基線方法,長程任務(wù)中表現(xiàn)尤為突出。

Fast-ThinkAct還展現(xiàn)出故障恢復、小樣本適應和長程規(guī)劃等特別能力。在RoboFAC基準上,它識別故障并提供恢復指導的能力出色,模擬環(huán)境得分91.1%,真實機器人環(huán)境得分78.9%,分別比第二名高出10.9分和16.4分。例如,機器人抓勺子抓空時,它能分析視頻并給出準確恢復建議。在RoboTwin2.0小樣本測試中,它在中等復雜度任務(wù)上成功率56.5%,長程任務(wù)上16.8%,顯著高于其他方法。對于長程規(guī)劃任務(wù),其生成的視覺軌跡預測能準確描繪完成路徑,內(nèi)部推理表征為動作執(zhí)行提供有效指導。

研究團隊設(shè)計的言語化器讓我們能了解機器人的“內(nèi)心世界”。對比教師模型原始推理和學生模型言語化推理輸出發(fā)現(xiàn),學生模型推理更精煉且準確。例如在拿起玻璃杯任務(wù)中,學生模型推理更簡潔地表明任務(wù)成功完成;在判斷房間是否在一樓的例子中,學生模型注意到關(guān)鍵視覺線索給出正確答案,而教師模型推理冗長卻給出錯誤答案。

消融實驗驗證了框架各組件的貢獻。移除言語化損失后,模型在EgoPlan-Bench2和RoboVQA上得分下降;進一步移除蒸餾損失,性能繼續(xù)下降。完整Fast-ThinkAct比教師模型更快且性能更好,6個潛在詞元達到最佳平衡。不過,研究也存在局限性,言語化器基于預訓練語言模型構(gòu)建,可能產(chǎn)生幻覺,但主要影響解釋性,對動作執(zhí)行影響不大。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容