波士頓大學(xué)突破:AI通過聲音還原說話者視覺信息
2025-09-01 04:09:12
它需要將聲音這種"聽覺語(yǔ)言"翻譯成面部動(dòng)作這種"視覺語(yǔ)言" 。波士AI能夠正確識(shí)別說話者身份的學(xué)突信息準(zhǔn)確率達(dá)到了64.2%。理解說話者聲音特征的過聲時(shí)間演變模式 。AI需要學(xué)會(huì)識(shí)別聲音中哪些特征對(duì)應(yīng)著特定的音還原說面部動(dòng)作。
當(dāng)我們聽到一個(gè)人說話時(shí)