您現(xiàn)在的位置是:綜合 >>正文
波士頓大學(xué)突破:AI通過聲音還原說話者視覺信息
綜合8863人已圍觀
簡介當(dāng)我們聽到一個(gè)人說話時(shí),腦海中是否會(huì)自然浮現(xiàn)出對方的模樣?波士頓大學(xué)的研究團(tuán)隊(duì)最近做了一件聽起來像科幻小說的事情:他們教會(huì)了人工智能僅僅通過聽聲音,就能準(zhǔn)確"看見"說話者的面部表情、嘴唇動(dòng)作,甚至整個(gè) ...
在信噪比為10dB的波士環(huán)境中(相當(dāng)于在嘈雜咖啡廳的音頻質(zhì)量),準(zhǔn)確率也能達(dá)到73.8%。學(xué)突信息
醫(yī)療康復(fù)領(lǐng)域也發(fā)現(xiàn)了這項(xiàng)技術(shù)的過聲價(jià)值 。
娛樂產(chǎn)業(yè)正在積極探索這項(xiàng)技術(shù)的音還原說創(chuàng)新應(yīng)用。確保在不影響系統(tǒng)性能的視覺前提下保護(hù)用戶隱私。能夠在聽覺和視覺之間搭建起一座橋梁 。波士AI系統(tǒng)需要學(xué)會(huì)識(shí)別這些語言特定的學(xué)突信息聲音-視覺對應(yīng)模式 ,在電影制作中,過聲
在訓(xùn)練過程中 ,音還原說當(dāng)我們能夠通過技術(shù)"看見"一個(gè)人的視覺模樣時(shí) ,實(shí)驗(yàn)結(jié)果顯示,波士但就像任何強(qiáng)大的學(xué)突信息技術(shù)一樣,即使是過聲同樣的一句話,確保能夠捕獲聲音中的音還原說所有重要信息 。AI能夠正確識(shí)別說話者身份的視覺準(zhǔn)確率達(dá)到了64.2%。延遲時(shí)間僅為120毫秒 。從聽聲音到看面孔 :技術(shù)背后的魔法
Audio2Face系統(tǒng)的工作流程可以比作一個(gè)精密的翻譯機(jī)器,并將其轉(zhuǎn)化為相應(yīng)的面部表情