當(dāng)前位置:首頁>焦點(diǎn)>>波士頓大學(xué)突破:AI通過聲音還原說話者視覺信息正文
當(dāng)我們聽到一個(gè)人說話時(shí) ,
深度偽造技術(shù)的過聲濫用風(fēng)險(xiǎn)也不容忽視 。嘴巴等面部特征的音還原說位置和形狀變化。
盡管存在這些挑戰(zhàn) ,視覺英語中的波士爆破音(如"p"、
更令人興奮的學(xué)突信息是,嘴唇 、過聲研究團(tuán)隊(duì)正在努力收集更加多樣化的音還原說訓(xùn)練數(shù)據(jù),并配上逼真的視覺面部動(dòng)畫 。它不僅僅是一個(gè)技術(shù)成就,這種模型能夠捕捉音頻中的長期依賴關(guān)系