久久国产精品国产精品国产-青春草在线精品视频-长春欧亚卖场是哪个区-青青草视频在线你懂的-丰满人妻一区二区三区精品高清-国产精品久久久久久无码AV-韩国精品一区二区三区四区-韩国日本在线观看一区二区-av日韩天堂在线播放

發(fā)現(xiàn)者網(wǎng) 手機(jī)網(wǎng)站 站內(nèi)搜索
  • 洞察行業(yè)動(dòng)向,賦能未來市場(chǎng)!發(fā)現(xiàn)者網(wǎng),商業(yè)視角的探索之旅!
發(fā)現(xiàn)商業(yè)評(píng)論 旗下
洞察商業(yè) 啟迪未來

舊金山四人團(tuán)隊(duì)另辟蹊徑:用千萬小時(shí)視頻訓(xùn)練出通用計(jì)算機(jī)操作新模型

   時(shí)間:2026-02-25 08:44 來源:快訊作者:柳晴雪

舊金山一家名為Standard Intelligence的初創(chuàng)公司,近日宣布推出名為FDM-1(前向動(dòng)力學(xué)模型)的計(jì)算機(jī)行為模型,宣稱其為“首個(gè)完全通用的計(jì)算機(jī)行為模型”。該模型通過直接處理視頻流,在CAD建模、網(wǎng)站安全測(cè)試以及自動(dòng)駕駛等場(chǎng)景中展現(xiàn)出強(qiáng)大的泛化能力,引發(fā)行業(yè)關(guān)注。

與傳統(tǒng)計(jì)算機(jī)使用代理依賴截屏分析和界面元素識(shí)別不同,F(xiàn)DM-1選擇了一條截然不同的技術(shù)路徑。它直接從大規(guī)模視頻數(shù)據(jù)中學(xué)習(xí)人類操作計(jì)算機(jī)的行為模式,而非在已有視覺語言模型上疊加工具調(diào)用能力。Standard Intelligence認(rèn)為,要實(shí)現(xiàn)真正通用的計(jì)算機(jī)操作智能體,關(guān)鍵在于利用互聯(lián)網(wǎng)規(guī)模的視頻語料庫,而非局限于截屏上的分類和推理。

當(dāng)前,主流的計(jì)算機(jī)使用代理如Anthropic的Claude、OpenAI的Operator以及Google DeepMind的Project Mariner,均采用“看圖說話”的思路,依賴視覺語言模型和工具調(diào)用能力。這些模型通過截屏、識(shí)別界面元素、模擬點(diǎn)擊和鍵入來操作計(jì)算機(jī),盡管在特定基準(zhǔn)測(cè)試中取得了不錯(cuò)成績(jī),但本質(zhì)上仍受限于截屏分辨率和操作頻率。

FDM-1的訓(xùn)練方法則更接近OpenAI在2022年提出的VPT(視頻預(yù)訓(xùn)練)方法,但進(jìn)行了顯著改進(jìn)。VPT通過少量標(biāo)注數(shù)據(jù)訓(xùn)練逆向動(dòng)力學(xué)模型(IDM),再利用IDM為大規(guī)模游戲視頻自動(dòng)打標(biāo)簽,最終實(shí)現(xiàn)行為克隆訓(xùn)練。然而,VPT的應(yīng)用局限于Minecraft游戲環(huán)境,且上下文窗口極短,無法處理需要長時(shí)間連貫操作的任務(wù)。

Standard Intelligence在FDM-1的開發(fā)中,同時(shí)突破了數(shù)據(jù)規(guī)模和上下文長度兩個(gè)維度。他們首先利用4萬小時(shí)的標(biāo)注員錄屏數(shù)據(jù)訓(xùn)練IDM,然后用IDM為1,100萬小時(shí)的互聯(lián)網(wǎng)視頻語料庫自動(dòng)標(biāo)注操作動(dòng)作。IDM采用掩碼擴(kuò)散架構(gòu),能夠同時(shí)參照所有幀來推斷每個(gè)時(shí)間步的動(dòng)作,提高了數(shù)據(jù)效率和標(biāo)注準(zhǔn)確性。

在上下文長度方面,F(xiàn)DM-1通過自研的視頻編碼器實(shí)現(xiàn)了顯著突破?,F(xiàn)有視覺語言模型處理屏幕錄制視頻的方式極度浪費(fèi)token,導(dǎo)致上下文窗口極短。而FDM-1的視頻編碼器能夠?qū)⒔鼉尚r(shí)的30 FPS視頻壓縮進(jìn)200k token預(yù)算,比此前最優(yōu)方案高效50倍。這使得FDM-1能夠在更長的上下文窗口中處理視頻流,適應(yīng)需要長時(shí)間連貫操作的任務(wù)。

FDM-1本身是一個(gè)標(biāo)準(zhǔn)的自回歸模型,接收此前的視頻幀和動(dòng)作序列,預(yù)測(cè)下一個(gè)動(dòng)作token。輸出空間由鍵盤按鍵和鼠標(biāo)移動(dòng)增量組成。為了處理鼠標(biāo)位移的龐大狀態(tài)空間,F(xiàn)DM-1將鼠標(biāo)位移分解為X和Y分量,使用指數(shù)分箱將其映射到有限數(shù)量的箱中。同時(shí),每個(gè)鼠標(biāo)移動(dòng)token還附帶預(yù)測(cè)下一個(gè)點(diǎn)擊位置,幫助生成更精確的軌跡。

在評(píng)估基礎(chǔ)設(shè)施方面,Standard Intelligence建立了一套可運(yùn)行8萬臺(tái)分叉虛擬機(jī)的系統(tǒng),每小時(shí)能跑超過100萬次rollout。分叉機(jī)制允許他們對(duì)操作系統(tǒng)狀態(tài)做完整內(nèi)存快照并復(fù)制到新的VM上,從而在同一個(gè)起始狀態(tài)上并行跑數(shù)千次評(píng)估。這種評(píng)估方式大大提高了測(cè)試效率,降低了推理延遲。

初步評(píng)測(cè)結(jié)果顯示,IDM標(biāo)注數(shù)據(jù)在鼠標(biāo)操作、目標(biāo)點(diǎn)擊、符號(hào)記憶和UI操控等方面的表現(xiàn)已經(jīng)超過了人工標(biāo)注的承包商數(shù)據(jù)。然而,在打字和語言理解任務(wù)上,IDM數(shù)據(jù)上的進(jìn)步速度慢于承包商數(shù)據(jù),這可能是由于IDM標(biāo)注噪聲造成的。未來,Standard Intelligence計(jì)劃混合使用兩種數(shù)據(jù),以進(jìn)一步提高模型性能。

在自動(dòng)駕駛的微調(diào)實(shí)驗(yàn)中,F(xiàn)DM-1在不到1小時(shí)的駕駛數(shù)據(jù)上微調(diào)后,就能用方向鍵控制汽車在舊金山繞街區(qū)轉(zhuǎn)彎,起始準(zhǔn)確率為50%。這一結(jié)果明顯高于僅有視頻編碼器而沒有互聯(lián)網(wǎng)視頻預(yù)訓(xùn)練的基線模型,展示了FDM-1在連續(xù)控制任務(wù)上的潛力。

Standard Intelligence的研究團(tuán)隊(duì)背景年輕但研究嗅覺敏銳。核心作者包括來自UCLA的Neel Redkar、參與過機(jī)器學(xué)習(xí)對(duì)齊理論學(xué)者項(xiàng)目的Yudhister Kumar等。在FDM-1之前,該團(tuán)隊(duì)已經(jīng)有過兩個(gè)引起關(guān)注的項(xiàng)目:一個(gè)是建造30 PB存儲(chǔ)集群用于存放視頻數(shù)據(jù),另一個(gè)是開源全雙工音頻基礎(chǔ)模型hertz-dev。這兩個(gè)項(xiàng)目分別對(duì)應(yīng)了FDM-1所需要的兩個(gè)關(guān)鍵能力:大規(guī)模數(shù)據(jù)基礎(chǔ)設(shè)施和跨模態(tài)學(xué)習(xí)。

盡管FDM-1現(xiàn)在還遠(yuǎn)不是一個(gè)可用的產(chǎn)品,缺乏指令跟隨能力和公開標(biāo)準(zhǔn)化基準(zhǔn)測(cè)試結(jié)果,但它在連續(xù)控制任務(wù)上的獨(dú)特優(yōu)勢(shì)以及提出的技術(shù)路徑仍然值得關(guān)注。未來,F(xiàn)DM-1代表的路線和視覺語言模型代理路線最終可能會(huì)趨于融合,兼得兩種路線的優(yōu)點(diǎn)。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容