久久国产精品国产精品国产-青春草在线精品视频-长春欧亚卖场是哪个区-青青草视频在线你懂的-丰满人妻一区二区三区精品高清-国产精品久久久久久无码AV-韩国精品一区二区三区四区-韩国日本在线观看一区二区-av日韩天堂在线播放

發(fā)現(xiàn)者網(wǎng) 手機(jī)網(wǎng)站 站內(nèi)搜索
  • 洞察行業(yè)動(dòng)向,賦能未來(lái)市場(chǎng)!發(fā)現(xiàn)者網(wǎng),商業(yè)視角的探索之旅!
發(fā)現(xiàn)商業(yè)評(píng)論 旗下
洞察商業(yè) 啟迪未來(lái)

24歲00后博士生胡文博團(tuán)隊(duì)打造G2VLM,為AI添空間超能力新翼

   時(shí)間:2026-01-05 05:12 來(lái)源:快訊作者:朱天宇

24歲的胡文博,這位年輕的00后博士生,帶領(lǐng)團(tuán)隊(duì)研發(fā)出一款名為G2VLM的超級(jí)AI模型,引發(fā)了科技界的廣泛關(guān)注。這款模型不僅具備從平面圖片中精準(zhǔn)重建三維世界的能力,還能進(jìn)行復(fù)雜的空間思考和推理,堪稱視覺語(yǔ)言領(lǐng)域的“空間小能手”。

與普通圖像識(shí)別軟件不同,G2VLM能夠理解物體的位置、距離和相互關(guān)系。例如,它不僅能識(shí)別出照片中的椅子,還能判斷椅子與桌子的距離、椅子的高度以及擺放方式。這種能力使得未來(lái)的機(jī)器人能夠更靈活地執(zhí)行任務(wù),AR/VR游戲的世界更加真實(shí),自動(dòng)駕駛汽車也能更精準(zhǔn)地判斷距離和障礙物。

在SPAR-Bench測(cè)試中,G2VLM的總分超過(guò)了頂尖商業(yè)模型GPT-4o,位居榜首。在OmniSpatial、MindCube等多個(gè)空間推理測(cè)試基準(zhǔn)中,它也取得了最優(yōu)或極具競(jìng)爭(zhēng)力的成績(jī)。盡管G2VLM的模型尺寸僅為4B參數(shù),遠(yuǎn)小于一些大型模型,但其在空間任務(wù)上的表現(xiàn)卻輕松超越了這些“大塊頭”,證明了其雙專家架構(gòu)設(shè)計(jì)的高效性。

幾何感知專家擅長(zhǎng)從2D圖片中解讀3D幾何信息,目標(biāo)是弄清楚物體的深度、三維坐標(biāo)和相機(jī)角度。語(yǔ)義感知專家則繼承了現(xiàn)有AI模型的優(yōu)點(diǎn),擅長(zhǎng)理解圖片內(nèi)容并用語(yǔ)言描述。兩位專家通過(guò)共享的注意力機(jī)制緊密相連,實(shí)時(shí)交流信息,使得G2VLM同時(shí)具備了看懂內(nèi)容和理解空間的能力。

為了培養(yǎng)這樣一位“雙料專家”,胡文博為G2VLM設(shè)計(jì)了一套獨(dú)特的訓(xùn)練方案。在第一階段,幾何感知專家單獨(dú)訓(xùn)練,使用帶有精確三維標(biāo)注的數(shù)據(jù),練就一雙“火眼金睛”,光看照片就能在腦中構(gòu)建三維模型。在第二階段,幾何感知專家與語(yǔ)義感知專家一起訓(xùn)練,面對(duì)各種需要空間推理的問(wèn)題,兩位專家不斷磨合,最終合體成為強(qiáng)大的G2VLM。

在三維重建測(cè)試中,G2VLM的表現(xiàn)與世界上最頂尖的專用三維重建模型不相上下,甚至在某些指標(biāo)上更加出色。在空間推理測(cè)試中,它在包含深度比較、距離判斷、物體相對(duì)關(guān)系、空間想象等難題的綜合評(píng)測(cè)集上展現(xiàn)出了卓越的能力。

胡文博指出,G2VLM的首創(chuàng)性在于,它是首個(gè)在當(dāng)前主流視覺語(yǔ)言模型架構(gòu)中,原生地集成了從二維圖片直接預(yù)測(cè)三維信息的能力。以往理解三維空間需要依賴難以大規(guī)模獲取的額外標(biāo)注信息,而G2VLM僅需任意角度拍攝的二維圖片,就能預(yù)測(cè)出三維信息并用于空間理解,這使得模型更具實(shí)用性和可擴(kuò)展性。

胡文博本科就讀于美國(guó)加州大學(xué)圣地亞哥分校,曾跟隨機(jī)器人學(xué)與具身智能領(lǐng)域?qū)<姨K昊進(jìn)行研究,激發(fā)了他對(duì)3D和具身智能的濃厚興趣。隨后,他跟隨計(jì)算機(jī)視覺專家屠卓文進(jìn)入視覺語(yǔ)言模型領(lǐng)域,參與開發(fā)了早期開源VLM模型BLIVA。本科畢業(yè)后,胡文博在美國(guó)加州大學(xué)洛杉磯分校攻讀碩士學(xué)位,繼續(xù)專注于VLM與3D空間結(jié)合的研究方向,完成了一系列相關(guān)工作,相關(guān)論文發(fā)表在NeurIPS、ICLR等機(jī)器學(xué)習(xí)頂級(jí)會(huì)議上,并獲得了CVPR Workshop最佳論文。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容