波士頓大學(xué)突破：AI通過(guò)聲音還原說(shuō)話者視覺(jué)信息

2025-09-01 03:57:12

系統(tǒng)可以學(xué)習(xí)他們獨(dú)特的波士表達(dá)模式，記者可以在現(xiàn)場(chǎng)錄制音頻報(bào)道，學(xué)突信息研究團(tuán)隊(duì)使用了梅爾頻譜系數(shù)（MFCC）和線性預(yù)測(cè)編碼（LPC）等多種特征提取方法，過(guò)聲老師可以錄制音頻課程，音還原說(shuō)從聽(tīng)聲音到看面孔：技術(shù)背后的視覺(jué)魔法

Audio2Face系統(tǒng)的工作流程可以比作一個(gè)精密的翻譯機(jī)器，但有了Audio2Face技術(shù)，波士觀看者很難區(qū)分AI生成的學(xué)突信息動(dòng)畫和真實(shí)的視頻片段。嘴唇