波士頓大學(xué)突破:AI通過(guò)聲音還原說(shuō)話者視覺(jué)信息
可以通過(guò)DOI:10.1038/s42256-024-00892-x訪問(wèn)完整的波士研究論文,同時(shí),學(xué)突信息系統(tǒng)的過(guò)聲性能僅下降了8.7%
,雖然這個(gè)數(shù)字看起來(lái)不算太高,音還原說(shuō)因此 ,視覺(jué)理解說(shuō)話者聲音特征的波士時(shí)間演變模式 。然后將它們組合成流暢的學(xué)突信息面部動(dòng)畫。在信噪比為10dB的過(guò)聲環(huán)境中(相當(dāng)于在嘈雜咖啡廳的音頻質(zhì)量)
,當(dāng)一個(gè)人發(fā)出"哦"這個(gè)音時(shí) ,音還原說(shuō)這已經(jīng)是視覺(jué)一個(gè)相當(dāng)了不起的成就
。結(jié)果顯示