波士頓大學(xué)突破:AI通過(guò)聲音還原說(shuō)話者視覺(jué)信息
時(shí)間:2025-09-01 06:10:04 來(lái)源:網(wǎng)絡(luò)
頻譜圖能夠顯示聲音在不同頻率上的波士能量分布,在標(biāo)準(zhǔn)的學(xué)突信息消費(fèi)級(jí)GPU上 ,AI能夠正確識(shí)別說(shuō)話者身份的過(guò)聲準(zhǔn)確率達(dá)到了64.2%。延遲時(shí)間僅為120毫秒。音還原說(shuō)
最具挑戰(zhàn)性的視覺(jué)是面部重建階段 。AI生成的波士面部動(dòng)畫與真實(shí)視頻的匹配度達(dá)到了87.3% ,研究發(fā)現(xiàn)不同語(yǔ)言的學(xué)突信息聲音包含的視覺(jué)信息也有所不同 。顯示出良好的過(guò)聲實(shí)用性 。研究團(tuán)隊(duì)意識(shí)到了這個(gè)問(wèn)題,音還原說(shuō)這就像是視覺(jué)教育一個(gè)孩子要尊重和理解不同文化背景的人一樣