久久国产精品国产精品国产-青春草在线精品视频-长春欧亚卖场是哪个区-青青草视频在线你懂的-丰满人妻一区二区三区精品高清-国产精品久久久久久无码AV-韩国精品一区二区三区四区-韩国日本在线观看一区二区-av日韩天堂在线播放

發(fā)現(xiàn)者網(wǎng) 手機(jī)網(wǎng)站 站內(nèi)搜索
  • 洞察行業(yè)動向,賦能未來市場!發(fā)現(xiàn)者網(wǎng),商業(yè)視角的探索之旅!
發(fā)現(xiàn)商業(yè)評論 旗下
洞察商業(yè) 啟迪未來

雷軍宣布小米AI創(chuàng)新成果閃耀I(xiàn)CASSP 2026,多領(lǐng)域技術(shù)突破引領(lǐng)未來

   時(shí)間:2026-01-22 15:29 來源:快訊作者:鄭佳

小米在人工智能領(lǐng)域再獲突破,其多項(xiàng)AI創(chuàng)新成果成功入選國際頂級學(xué)術(shù)會議ICASSP 2026。這一會議作為全球音頻領(lǐng)域最具權(quán)威性和影響力的學(xué)術(shù)盛會之一,自1976年在美國費(fèi)城首次舉辦以來,已有近50年歷史。ICASSP 2026將于今年5月在西班牙巴塞羅那舉行,小米的入選標(biāo)志著其在音頻及相關(guān)AI領(lǐng)域的技術(shù)實(shí)力獲得國際認(rèn)可。

在音頻理解領(lǐng)域,小米團(tuán)隊(duì)推出了ACAVCaps數(shù)據(jù)集,旨在突破現(xiàn)有數(shù)據(jù)集在規(guī)模與描述粒度上的瓶頸。該數(shù)據(jù)集通過創(chuàng)新的自動化管線,從多維度、多視角對音頻內(nèi)容進(jìn)行精細(xì)化刻畫,利用多個(gè)專家模型并行提取聲音事件、音樂特征、說話人屬性等關(guān)鍵元數(shù)據(jù),并引入大語言模型進(jìn)行邏輯整合。ACAVCaps包含約470萬條音頻-文本對,推動音頻AI從簡單的“特征識別”向深度的“語義理解”發(fā)展,并將于近期全面開源。

針對聯(lián)邦學(xué)習(xí)中的域泛化和類別泛化問題,小米提出了FedDCG框架。該框架通過域分組策略和類特定協(xié)作訓(xùn)練機(jī)制,首次在聯(lián)邦學(xué)習(xí)設(shè)置下聯(lián)合解決類別和域泛化問題,顯著提升了模型在未知環(huán)境中的準(zhǔn)確性與魯棒性。實(shí)驗(yàn)表明,F(xiàn)edDCG在多個(gè)數(shù)據(jù)集上的表現(xiàn)優(yōu)于當(dāng)前最先進(jìn)的基線方法,尤其在低采樣率設(shè)置下仍保持領(lǐng)先,為跨域圖像分類和隱私保護(hù)下的模型部署提供了可行路徑。

在文本到音樂生成系統(tǒng)的感知評估方面,小米提出了FUSEMOS架構(gòu)。該架構(gòu)融合CLAP與MERT兩大預(yù)訓(xùn)練模型,通過雙編碼器策略實(shí)現(xiàn)更精準(zhǔn)、更貼近人類聽覺感知的評估。FUSEMOS引入排名感知復(fù)合損失函數(shù),顯著增強(qiáng)模型對人類偏好相對順序的理解能力,在Musiceval基準(zhǔn)上的實(shí)驗(yàn)結(jié)果驗(yàn)證了其有效性。

GLAP模型實(shí)現(xiàn)了跨音頻領(lǐng)域與跨語言的音頻-文本對齊,支持RAG形式的音頻搜索。該模型首次通過單一框架同時(shí)優(yōu)化語音、音樂及聲音事件的檢索與分類性能,在多個(gè)語音和聲音檢索基準(zhǔn)上保持領(lǐng)先競爭力。GLAP具備多語言泛化能力,無需目標(biāo)語種微調(diào)即可在50種語言的關(guān)鍵詞識別中展現(xiàn)Zero-shot能力,可直接賦能小米“人車家全生態(tài)”中的跨模態(tài)理解場景。

在視頻同步音效生成領(lǐng)域,小米提出了MeanFlow模型。該模型通過平均速度場建模替代傳統(tǒng)流匹配模型的瞬時(shí)速度建模,實(shí)現(xiàn)推理階段的一步生成,并引入標(biāo)量重縮放機(jī)制緩解失真問題。實(shí)驗(yàn)表明,MeanFlow在實(shí)現(xiàn)推理速度大幅提升的同時(shí),精準(zhǔn)保障音效生成質(zhì)量,可直接賦能影視后期配音、短視頻智能音效生成等實(shí)際場景。

小米還提出了一種統(tǒng)一的多任務(wù)學(xué)習(xí)框架,將“找圖、找文、意圖理解”整合到兩個(gè)模型中。該框架通過文本編碼器對齊圖像和文本的語義空間,并通過跨注意力機(jī)制與NLU模型進(jìn)行語義交互,實(shí)現(xiàn)意圖感知和語義增強(qiáng)。實(shí)驗(yàn)表明,該框架在多模態(tài)檢索任務(wù)上表現(xiàn)優(yōu)異,為小米手機(jī)場景下的多模態(tài)檢索提供了輕量化、高性能的解決方案。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容