天天摸日日干夜夜看,亚洲中文字幕久久无码网站 ,女明星黄网站色视频免费国产

舊金山一家名為Standard Intelligence的初創(chuàng)公司，近日宣布推出名為FDM-1（前向動(dòng)力學(xué)模型）的計(jì)算機(jī)行為模型，宣稱其為“首個(gè)完全通用的計(jì)算機(jī)行為模型”。該模型通過直接處理視頻流，在CAD建模、網(wǎng)站安全測(cè)試以及自動(dòng)駕駛等場(chǎng)景中展現(xiàn)出強(qiáng)大的泛化能力，引發(fā)行業(yè)關(guān)注。

與傳統(tǒng)計(jì)算機(jī)使用代理依賴截屏分析和界面元素識(shí)別不同，F(xiàn)DM-1選擇了一條截然不同的技術(shù)路徑。它直接從大規(guī)模視頻數(shù)據(jù)中學(xué)習(xí)人類操作計(jì)算機(jī)的行為模式，而非在已有視覺語言模型上疊加工具調(diào)用能力。Standard Intelligence認(rèn)為，要實(shí)現(xiàn)真正通用的計(jì)算機(jī)操作智能體，關(guān)鍵在于利用互聯(lián)網(wǎng)規(guī)模的視頻語料庫，而非局限于截屏上的分類和推理。

當(dāng)前，主流的計(jì)算機(jī)使用代理如Anthropic的Claude、OpenAI的Operator以及Google DeepMind的Project Mariner，均采用“看圖說話”的思路，依賴視覺語言模型和工具調(diào)用能力。這些模型通過截屏、識(shí)別界面元素、模擬點(diǎn)擊和鍵入來操作計(jì)算機(jī)，盡管在特定基準(zhǔn)測(cè)試中取得了不錯(cuò)成績(jī)，但本質(zhì)上仍受限于截屏分辨率和操作頻率。

FDM-1的訓(xùn)練方法則更接近OpenAI在2022年提出的VPT（視頻預(yù)訓(xùn)練）方法，但進(jìn)行了顯著改進(jìn)。VPT通過少量標(biāo)注數(shù)據(jù)訓(xùn)練逆向動(dòng)力學(xué)模型（IDM），再利用IDM為大規(guī)模游戲視頻自動(dòng)打標(biāo)簽，最終實(shí)現(xiàn)行為克隆訓(xùn)練。然而，VPT的應(yīng)用局限于Minecraft游戲環(huán)境，且上下文窗口極短，無法處理需要長時(shí)間連貫操作的任務(wù)。

Standard Intelligence在FDM-1的開發(fā)中，同時(shí)突破了數(shù)據(jù)規(guī)模和上下文長度兩個(gè)維度。他們首先利用4萬小時(shí)的標(biāo)注員錄屏數(shù)據(jù)訓(xùn)練IDM，然后用IDM為1,100萬小時(shí)的互聯(lián)網(wǎng)視頻語料庫自動(dòng)標(biāo)注操作動(dòng)作。IDM采用掩碼擴(kuò)散架構(gòu)，能夠同時(shí)參照所有幀來推斷每個(gè)時(shí)間步的動(dòng)作，提高了數(shù)據(jù)效率和標(biāo)注準(zhǔn)確性。

在上下文長度方面，F(xiàn)DM-1通過自研的視頻編碼器實(shí)現(xiàn)了顯著突破?，F(xiàn)有視覺語言模型處理屏幕錄制視頻的方式極度浪費(fèi)token，導(dǎo)致上下文窗口極短。而FDM-1的視頻編碼器能夠?qū)⒔鼉尚r(shí)的30 FPS視頻壓縮進(jìn)200k token預(yù)算，比此前最優(yōu)方案高效50倍。這使得FDM-1能夠在更長的上下文窗口中處理視頻流，適應(yīng)需要長時(shí)間連貫操作的任務(wù)。

FDM-1本身是一個(gè)標(biāo)準(zhǔn)的自回歸模型，接收此前的視頻幀和動(dòng)作序列，預(yù)測(cè)下一個(gè)動(dòng)作token。輸出空間由鍵盤按鍵和鼠標(biāo)移動(dòng)增量組成。為了處理鼠標(biāo)位移的龐大狀態(tài)空間，F(xiàn)DM-1將鼠標(biāo)位移分解為X和Y分量，使用指數(shù)分箱將其映射到有限數(shù)量的箱中。同時(shí)，每個(gè)鼠標(biāo)移動(dòng)token還附帶預(yù)測(cè)下一個(gè)點(diǎn)擊位置，幫助生成更精確的軌跡。

在評(píng)估基礎(chǔ)設(shè)施方面，Standard Intelligence建立了一套可運(yùn)行8萬臺(tái)分叉虛擬機(jī)的系統(tǒng)，每小時(shí)能跑超過100萬次rollout。分叉機(jī)制允許他們對(duì)操作系統(tǒng)狀態(tài)做完整內(nèi)存快照并復(fù)制到新的VM上，從而在同一個(gè)起始狀態(tài)上并行跑數(shù)千次評(píng)估。這種評(píng)估方式大大提高了測(cè)試效率，降低了推理延遲。

初步評(píng)測(cè)結(jié)果顯示，IDM標(biāo)注數(shù)據(jù)在鼠標(biāo)操作、目標(biāo)點(diǎn)擊、符號(hào)記憶和UI操控等方面的表現(xiàn)已經(jīng)超過了人工標(biāo)注的承包商數(shù)據(jù)。然而，在打字和語言理解任務(wù)上，IDM數(shù)據(jù)上的進(jìn)步速度慢于承包商數(shù)據(jù)，這可能是由于IDM標(biāo)注噪聲造成的。未來，Standard Intelligence計(jì)劃混合使用兩種數(shù)據(jù)，以進(jìn)一步提高模型性能。

在自動(dòng)駕駛的微調(diào)實(shí)驗(yàn)中，F(xiàn)DM-1在不到1小時(shí)的駕駛數(shù)據(jù)上微調(diào)后，就能用方向鍵控制汽車在舊金山繞街區(qū)轉(zhuǎn)彎，起始準(zhǔn)確率為50%。這一結(jié)果明顯高于僅有視頻編碼器而沒有互聯(lián)網(wǎng)視頻預(yù)訓(xùn)練的基線模型，展示了FDM-1在連續(xù)控制任務(wù)上的潛力。

Standard Intelligence的研究團(tuán)隊(duì)背景年輕但研究嗅覺敏銳。核心作者包括來自UCLA的Neel Redkar、參與過機(jī)器學(xué)習(xí)對(duì)齊理論學(xué)者項(xiàng)目的Yudhister Kumar等。在FDM-1之前，該團(tuán)隊(duì)已經(jīng)有過兩個(gè)引起關(guān)注的項(xiàng)目：一個(gè)是建造30 PB存儲(chǔ)集群用于存放視頻數(shù)據(jù)，另一個(gè)是開源全雙工音頻基礎(chǔ)模型hertz-dev。這兩個(gè)項(xiàng)目分別對(duì)應(yīng)了FDM-1所需要的兩個(gè)關(guān)鍵能力：大規(guī)模數(shù)據(jù)基礎(chǔ)設(shè)施和跨模態(tài)學(xué)習(xí)。

盡管FDM-1現(xiàn)在還遠(yuǎn)不是一個(gè)可用的產(chǎn)品，缺乏指令跟隨能力和公開標(biāo)準(zhǔn)化基準(zhǔn)測(cè)試結(jié)果，但它在連續(xù)控制任務(wù)上的獨(dú)特優(yōu)勢(shì)以及提出的技術(shù)路徑仍然值得關(guān)注。未來，F(xiàn)DM-1代表的路線和視覺語言模型代理路線最終可能會(huì)趨于融合，兼得兩種路線的優(yōu)點(diǎn)。

舊金山四人團(tuán)隊(duì)另辟蹊徑：用千萬小時(shí)視頻訓(xùn)練出通用計(jì)算機(jī)操作新模型