久久国产精品国产精品国产-青春草在线精品视频-长春欧亚卖场是哪个区-青青草视频在线你懂的-丰满人妻一区二区三区精品高清-国产精品久久久久久无码AV-韩国精品一区二区三区四区-韩国日本在线观看一区二区-av日韩天堂在线播放

發(fā)現(xiàn)者網(wǎng) 手機(jī)網(wǎng)站 站內(nèi)搜索
  • 洞察行業(yè)動向,賦能未來市場!發(fā)現(xiàn)者網(wǎng),商業(yè)視角的探索之旅!
發(fā)現(xiàn)商業(yè)評論 旗下
洞察商業(yè) 啟迪未來

哥大博士突破機(jī)器人“恐怖谷”!自監(jiān)督學(xué)習(xí)讓機(jī)器人唇部“活”起來,11種語言同步無壓力

   時間:2026-02-10 00:30 來源:快訊作者:顧雨柔

在人機(jī)交互領(lǐng)域,如何讓機(jī)器人擁有更自然的面部表情始終是科研人員關(guān)注的焦點(diǎn)。近期,哥倫比亞大學(xué)博士胡宇航帶領(lǐng)團(tuán)隊(duì)在面部機(jī)器人研究上取得突破性進(jìn)展,其研發(fā)的Emo面部機(jī)器人通過創(chuàng)新技術(shù)實(shí)現(xiàn)了與人類語音同步的唇部運(yùn)動,相關(guān)成果登上《科學(xué)·機(jī)器人學(xué)》封面,引發(fā)學(xué)界與產(chǎn)業(yè)界的廣泛關(guān)注。

傳統(tǒng)機(jī)器人研發(fā)往往聚焦于運(yùn)動能力或操作性能,但胡宇航團(tuán)隊(duì)選擇了一條差異化路徑——賦予機(jī)器人情感表達(dá)能力。這項(xiàng)研究始于哥倫比亞大學(xué)的博士課題,經(jīng)過兩年積累已在《科學(xué)》《自然》子刊發(fā)表三篇論文。團(tuán)隊(duì)發(fā)現(xiàn),嘴唇作為人類交流中動作最頻繁的面部器官,其運(yùn)動復(fù)雜性遠(yuǎn)超想象:不僅由多組肌肉群協(xié)同驅(qū)動,還需同步傳遞語言、情感與社交信號,對時間精度要求極高。

針對這一挑戰(zhàn),研究團(tuán)隊(duì)摒棄了傳統(tǒng)基于固定音素-視位映射的規(guī)則方法。該方法需為每個音素設(shè)計(jì)特定嘴型,但存在三大缺陷:無法適應(yīng)不同語速與情緒狀態(tài)下的發(fā)音差異;多語言場景需重新設(shè)計(jì)規(guī)則,工作量巨大;硬件升級后需徹底重構(gòu)動作系統(tǒng)。更關(guān)鍵的是,人類發(fā)音中音素與嘴型并非簡單對應(yīng),而是受語境、語速、情緒等多重因素影響,呈現(xiàn)高度連續(xù)的動態(tài)特征。

團(tuán)隊(duì)提出的解決方案是構(gòu)建數(shù)據(jù)驅(qū)動的自監(jiān)督學(xué)習(xí)系統(tǒng)。該系統(tǒng)分為兩個階段:首先通過"照鏡子"訓(xùn)練建立機(jī)器人自我模型——隨機(jī)生成數(shù)千種面部表情并觀察反饋,使系統(tǒng)掌握自身硬件的運(yùn)動邊界;隨后引入人類視頻數(shù)據(jù),學(xué)習(xí)嘴唇運(yùn)動的統(tǒng)計(jì)規(guī)律與高層時序結(jié)構(gòu),并通過自我模型將其轉(zhuǎn)化為機(jī)器人可執(zhí)行的動作。這種設(shè)計(jì)有效避免了跨形態(tài)直接模仿導(dǎo)致的域錯配問題,為自然唇部運(yùn)動奠定了基礎(chǔ)。

在評估方法上,研究團(tuán)隊(duì)創(chuàng)新性地采用合成參考視頻作為基準(zhǔn),通過變分自編碼器潛空間計(jì)算機(jī)器人唇部運(yùn)動與參考視頻的偏差。該方法突破了傳統(tǒng)二維關(guān)鍵點(diǎn)檢測易受噪聲干擾的局限,能夠精準(zhǔn)刻畫嘴型動態(tài)與時序結(jié)構(gòu)的差異,為連續(xù)語音與多語言場景下的音頻-視覺同步誤差評估提供了客觀標(biāo)準(zhǔn)。

實(shí)驗(yàn)數(shù)據(jù)顯示,該系統(tǒng)在11種語言中均能實(shí)現(xiàn)自然唇部同步,包括英語、法語、日語、中文等。這種跨語言能力源于模型對底層肌肉運(yùn)動模式的學(xué)習(xí)——它捕捉的是聲音節(jié)奏與嘴唇動作間的共性規(guī)律,而非特定語言的發(fā)音規(guī)則。例如,不同語言中硬輔音(如/b/、/p/)的發(fā)音雖差異顯著,但都遵循相似的"閉合-保持-釋放"運(yùn)動軌跡,系統(tǒng)通過學(xué)習(xí)這種本質(zhì)關(guān)系實(shí)現(xiàn)了泛化。

盡管取得突破,研究仍面臨挑戰(zhàn)。硬輔音處理是當(dāng)前技術(shù)瓶頸,這類發(fā)音涉及多重物理約束:嘴唇需在毫秒級時間內(nèi)完成精確閉合與釋放,同時協(xié)調(diào)多個自由度運(yùn)動,并應(yīng)對軟體接觸、非線性阻尼等復(fù)雜因素。系統(tǒng)在極端場景(如極快語速、多人對話、歌唱顫音)下的表現(xiàn)仍有提升空間。胡宇航指出,這些局限恰恰為未來研究指明了方向——通過引入更豐富的訓(xùn)練數(shù)據(jù)與優(yōu)化模型架構(gòu),有望逐步擴(kuò)展系統(tǒng)的適用邊界。

當(dāng)被問及技術(shù)擴(kuò)展性時,胡宇航確認(rèn)團(tuán)隊(duì)正將研究從唇部動作延伸至整個面部表情系統(tǒng)。下一步計(jì)劃是協(xié)調(diào)唇部、眼神、眉毛等面部要素,構(gòu)建統(tǒng)一細(xì)膩的情感表達(dá)框架。這項(xiàng)探索不僅關(guān)乎技術(shù)突破,更觸及人機(jī)交互的本質(zhì):當(dāng)機(jī)器人能用整張臉傳遞情緒時,人類與機(jī)器的關(guān)系將迎來更深層次的變革。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容