就像人類在聽音樂(lè)時(shí)會(huì)自然地關(guān)注旋律的波士高潮部分一樣 。AI需要學(xué)會(huì)識(shí)別聲音中哪些特征對(duì)應(yīng)著特定的學(xué)突信息面部動(dòng)作。這項(xiàng)研究首次證明了人類聲音中確實(shí)包含著豐富的過(guò)聲視覺信息 ,具體采用了改進(jìn)的音還原說(shuō)Transformer模型來(lái)處理音頻序列數(shù)據(jù)。系統(tǒng)能夠?qū)崿F(xiàn)實(shí)時(shí)處理