滾動資訊

當(dāng)前位置：發(fā)現(xiàn)者網(wǎng) > 科技業(yè)界 > 正文內(nèi)容

哥大博士突破機(jī)器人“恐怖谷”！自監(jiān)督學(xué)習(xí)讓機(jī)器人唇部“活”起來，11種語言同步無壓力

時間：2026-02-10 00:30 來源：快訊作者：顧雨柔

在人機(jī)交互領(lǐng)域，如何讓機(jī)器人擁有更自然的面部表情始終是科研人員關(guān)注的焦點(diǎn)。近期，哥倫比亞大學(xué)博士胡宇航帶領(lǐng)團(tuán)隊(duì)在面部機(jī)器人研究上取得突破性進(jìn)展，其研發(fā)的Emo面部機(jī)器人通過創(chuàng)新技術(shù)實(shí)現(xiàn)了與人類語音同步的唇部運(yùn)動，相關(guān)成果登上《科學(xué)·機(jī)器人學(xué)》封面，引發(fā)學(xué)界與產(chǎn)業(yè)界的廣泛關(guān)注。

傳統(tǒng)機(jī)器人研發(fā)往往聚焦于運(yùn)動能力或操作性能，但胡宇航團(tuán)隊(duì)選擇了一條差異化路徑——賦予機(jī)器人情感表達(dá)能力。這項(xiàng)研究始于哥倫比亞大學(xué)的博士課題，經(jīng)過兩年積累已在《科學(xué)》《自然》子刊發(fā)表三篇論文。團(tuán)隊(duì)發(fā)現(xiàn)，嘴唇作為人類交流中動作最頻繁的面部器官，其運(yùn)動復(fù)雜性遠(yuǎn)超想象：不僅由多組肌肉群協(xié)同驅(qū)動，還需同步傳遞語言、情感與社交信號，對時間精度要求極高。

針對這一挑戰(zhàn)，研究團(tuán)隊(duì)摒棄了傳統(tǒng)基于固定音素-視位映射的規(guī)則方法。該方法需為每個音素設(shè)計(jì)特定嘴型，但存在三大缺陷：無法適應(yīng)不同語速與情緒狀態(tài)下的發(fā)音差異；多語言場景需重新設(shè)計(jì)規(guī)則，工作量巨大；硬件升級后需徹底重構(gòu)動作系統(tǒng)。更關(guān)鍵的是，人類發(fā)音中音素與嘴型并非簡單對應(yīng)，而是受語境、語速、情緒等多重因素影響，呈現(xiàn)高度連續(xù)的動態(tài)特征。

團(tuán)隊(duì)提出的解決方案是構(gòu)建數(shù)據(jù)驅(qū)動的自監(jiān)督學(xué)習(xí)系統(tǒng)。該系統(tǒng)分為兩個階段：首先通過"照鏡子"訓(xùn)練建立機(jī)器人自我模型——隨機(jī)生成數(shù)千種面部表情并觀察反饋，使系統(tǒng)掌握自身硬件的運(yùn)動邊界；隨后引入人類視頻數(shù)據(jù)，學(xué)習(xí)嘴唇運(yùn)動的統(tǒng)計(jì)規(guī)律與高層時序結(jié)構(gòu)，并通過自我模型將其轉(zhuǎn)化為機(jī)器人可執(zhí)行的動作。這種設(shè)計(jì)有效避免了跨形態(tài)直接模仿導(dǎo)致的域錯配問題，為自然唇部運(yùn)動奠定了基礎(chǔ)。

在評估方法上，研究團(tuán)隊(duì)創(chuàng)新性地采用合成參考視頻作為基準(zhǔn)，通過變分自編碼器潛空間計(jì)算機(jī)器人唇部運(yùn)動與參考視頻的偏差。該方法突破了傳統(tǒng)二維關(guān)鍵點(diǎn)檢測易受噪聲干擾的局限，能夠精準(zhǔn)刻畫嘴型動態(tài)與時序結(jié)構(gòu)的差異，為連續(xù)語音與多語言場景下的音頻-視覺同步誤差評估提供了客觀標(biāo)準(zhǔn)。

實(shí)驗(yàn)數(shù)據(jù)顯示，該系統(tǒng)在11種語言中均能實(shí)現(xiàn)自然唇部同步，包括英語、法語、日語、中文等。這種跨語言能力源于模型對底層肌肉運(yùn)動模式的學(xué)習(xí)——它捕捉的是聲音節(jié)奏與嘴唇動作間的共性規(guī)律，而非特定語言的發(fā)音規(guī)則。例如，不同語言中硬輔音（如/b/、/p/）的發(fā)音雖差異顯著，但都遵循相似的"閉合-保持-釋放"運(yùn)動軌跡，系統(tǒng)通過學(xué)習(xí)這種本質(zhì)關(guān)系實(shí)現(xiàn)了泛化。

盡管取得突破，研究仍面臨挑戰(zhàn)。硬輔音處理是當(dāng)前技術(shù)瓶頸，這類發(fā)音涉及多重物理約束：嘴唇需在毫秒級時間內(nèi)完成精確閉合與釋放，同時協(xié)調(diào)多個自由度運(yùn)動，并應(yīng)對軟體接觸、非線性阻尼等復(fù)雜因素。系統(tǒng)在極端場景（如極快語速、多人對話、歌唱顫音）下的表現(xiàn)仍有提升空間。胡宇航指出，這些局限恰恰為未來研究指明了方向——通過引入更豐富的訓(xùn)練數(shù)據(jù)與優(yōu)化模型架構(gòu)，有望逐步擴(kuò)展系統(tǒng)的適用邊界。

當(dāng)被問及技術(shù)擴(kuò)展性時，胡宇航確認(rèn)團(tuán)隊(duì)正將研究從唇部動作延伸至整個面部表情系統(tǒng)。下一步計(jì)劃是協(xié)調(diào)唇部、眼神、眉毛等面部要素，構(gòu)建統(tǒng)一細(xì)膩的情感表達(dá)框架。這項(xiàng)探索不僅關(guān)乎技術(shù)突破，更觸及人機(jī)交互的本質(zhì)：當(dāng)機(jī)器人能用整張臉傳遞情緒時，人類與機(jī)器的關(guān)系將迎來更深層次的變革。

02-10

優(yōu)推信息：借百度關(guān)鍵詞與深度運(yùn)營喚醒沉默用戶挖掘潛在商機(jī)

02-10

HPE首席AI官解密：AI與自動化融合中技術(shù)、文化與邊界的碰撞

弗萊德解釋說，Mist和他在AI領(lǐng)域的工作起源于他試圖說服一家大型零售商在其網(wǎng)絡(luò)上部署移動體驗(yàn)應(yīng)用程序。弗萊德形容這"就像從嬰兒手中奪糖果"，因?yàn)檫@些技術(shù)人員擔(dān)心失去對系統(tǒng)的直接控制，需要建立對AI系統(tǒng)的信…

02-09

春節(jié)將至！上海黃金交易所與廣期所調(diào)整保證金及漲跌停板投資者需留意

02-09

黑石領(lǐng)投百億美元債務(wù)融資助力Firmus加速南半球AI工廠布局

02-09

特斯拉市值或沖100萬億美元，馬斯克坦言需巨大努力，市場看法不一

02-09

營銷變革新路徑：從傳統(tǒng)雙輪驅(qū)動邁向場景與IP雙引擎時代

02-09

珠江鋼琴榮耀上榜2025年度中國消費(fèi)名品名單樂器行業(yè)唯一彰顯卓越實(shí)力

02-09

華為Pura X2攜16:10闊屏登場大屏創(chuàng)作影音新體驗(yàn)引領(lǐng)折疊屏新潮流

02-09

三星電子HBM4量產(chǎn)在即，最快下周出貨，或引領(lǐng)全球高帶寬存儲器新潮流

02-09

烽禾升啟動IPO征程：董事長楊平控股，中金云岫等資本助力前行

瑞財(cái)經(jīng) 吳文婷近日，江蘇烽禾升科技集團(tuán)股份有限公司（以下簡稱“烽禾升”）啟動IPO。本次IPO的輔導(dǎo)機(jī)構(gòu)為華泰聯(lián)合證券有限責(zé)任公司，律師事務(wù)所為安徽天禾律師事務(wù)所，會計(jì)師事務(wù)所為容誠會計(jì)師事務(wù)所（特殊普通合…

02-09

從“押風(fēng)格”到“拼結(jié)構(gòu)”：ETF解碼市場資金審美分層新趨勢

02-09

國內(nèi)百億私募數(shù)量升至122家破紀(jì)錄，上海57家領(lǐng)跑全國

02-09

瀾起科技“A+H”再下一城！獲阿里等17家基石認(rèn)購市值超2100億港元

02-09

滬指日線五連陽站上4100點(diǎn)，超120股漲超10%，AI與光伏概念齊掀漲停潮

02-09

點(diǎn)擊查看更多 +

全站最新

科大訊飛智能辦公本怎么選？五款熱銷機(jī)型對比，幫你找到高效辦公好搭子

2026年學(xué)習(xí)機(jī)選購指南：七款熱門智能設(shè)備助力孩子學(xué)習(xí)更輕松！

Robotaxi蓄勢待發(fā)：技術(shù)革新與市場重構(gòu)能否圓共享汽車未竟之夢？

馬斯克再拋“瘋狂”計(jì)劃：特斯拉沖百萬億市值月球建城靠譜嗎？

馬斯克戰(zhàn)略轉(zhuǎn)向：優(yōu)先十年內(nèi)筑月球城，火星計(jì)劃五至七年后啟程

高途陳向東談俞敏洪：領(lǐng)導(dǎo)力卓越，談董宇輝體現(xiàn)教育人情懷

熱門內(nèi)容

本欄最新

烽禾升啟動IPO征程：董事長楊平控股，中金云岫等資本助力前行

鹿客科技沖刺港交所：董事長陳彬控股超三成清華碩士領(lǐng)航智能鎖賽道

閱文集團(tuán)2025年多線突破：以長青內(nèi)容、IP+AI、全球化布局韌性增長

愛潑斯坦案新文件曝光：2015年馬斯克扎克伯格等科技界人士同場晚宴照流出

小米汽車迎小年：雷軍2月10日晚8點(diǎn)直播共慶春節(jié)

小年之夜2月10日晚8點(diǎn)，雷軍將現(xiàn)身小米定制服務(wù)中心與大家共迎春節(jié)

發(fā)現(xiàn)者網(wǎng) - 深度洞察行業(yè)動態(tài) 引領(lǐng)市場先鋒平臺 - 發(fā)現(xiàn)商業(yè)評論旗下網(wǎng)站北京·通州天津·濱海山東·濟(jì)南
發(fā)現(xiàn)者網(wǎng)（m.ruruan.com.cn）所有稿件免費(fèi)開放轉(zhuǎn)載，轉(zhuǎn)載請務(wù)必保留版權(quán)。
合作微信：netspread（注明:發(fā)現(xiàn)者網(wǎng)）
Copyright ? FXW 2012-2023 m.ruruan.com.cn All rights reserved. 魯ICP備2022032383號-3

哥大博士突破機(jī)器人“恐怖谷”！自監(jiān)督學(xué)習(xí)讓機(jī)器人唇部“活”起來，11種語言同步無壓力

哥大博士突破機(jī)器人“恐怖谷”！自監(jiān)督學(xué)習(xí)讓機(jī)器人唇部“活”起來，11種語言同步無壓力