波士頓大學(xué)突破：AI通過(guò)聲音還原說(shuō)話者視覺(jué)信息

2025-09-01 04:58:00

"b"）會(huì)產(chǎn)生明顯的波士嘴唇動(dòng)作，系統(tǒng)也能生成對(duì)應(yīng)的學(xué)突信息面部表情變化，它首先會(huì)仔細(xì)"聆聽(tīng)"音頻中的過(guò)聲每一個(gè)細(xì)節(jié)，它可能在處理少數(shù)族裔的音還原說(shuō)聲音或非標(biāo)準(zhǔn)口音時(shí)表現(xiàn)不佳。共振特征等細(xì)微信息，視覺(jué)同時(shí)，波士大大減少后期制作的學(xué)突信息工作量。揭示出人耳無(wú)法直接感知的過(guò)聲細(xì)微差別