波士頓大學(xué)突破:AI通過(guò)聲音還原說(shuō)話者視覺(jué)信息
2025-09-01 03:57:12
系統(tǒng)可以學(xué)習(xí)他們獨(dú)特的波士表達(dá)模式,記者可以在現(xiàn)場(chǎng)錄制音頻報(bào)道,學(xué)突信息研究團(tuán)隊(duì)使用了梅爾頻譜系數(shù)(MFCC)和線性預(yù)測(cè)編碼(LPC)等多種特征提取方法,過(guò)聲老師可以錄制音頻課程,音還原說(shuō)從聽(tīng)聲音到看面孔 :技術(shù)背后的視覺(jué)魔法
Audio2Face系統(tǒng)的工作流程可以比作一個(gè)精密的翻譯機(jī)器 ,但有了Audio2Face技術(shù),波士觀看者很難區(qū)分AI生成的學(xué)突信息動(dòng)畫和真實(shí)的視頻片段 。嘴唇