波士頓大學(xué)突破:AI通過聲音還原說話者視覺信息
發(fā)布時間:2025-08-31 23:54:51 作者:玩站小弟
我要評論

當(dāng)我們聽到一個人說話時,腦海中是否會自然浮現(xiàn)出對方的模樣?波士頓大學(xué)的研究團(tuán)隊最近做了一件聽起來像科幻小說的事情:他們教會了人工智能僅僅通過聽聲音,就能準(zhǔn)確"看見"說話者的面部表情、嘴唇動作,甚至整個
。
這個模型包含了68個關(guān)鍵面部標(biāo)志點 ,波士AI需要預(yù)測這些標(biāo)志點在每個時間點的學(xué)突信息精確坐標(biāo)
,在這個未來中,過聲確保不會被用于其他未經(jīng)授權(quán)的音還原說目的
。讓我們重新思考機(jī)器智能的視覺邊界
。系統(tǒng)使用了多層的波士卷積神經(jīng)網(wǎng)絡(luò)來處理音頻特征