您現(xiàn)在的位置是：綜合 >>正文

波士頓大學(xué)突破：AI通過聲音還原說話者視覺信息

綜合8863人已圍觀

簡介當(dāng)我們聽到一個(gè)人說話時(shí)，腦海中是否會(huì)自然浮現(xiàn)出對方的模樣？波士頓大學(xué)的研究團(tuán)隊(duì)最近做了一件聽起來像科幻小說的事情：他們教會(huì)了人工智能僅僅通過聽聲音，就能準(zhǔn)確"看見"說話者的面部表情、嘴唇動(dòng)作，甚至整個(gè) ...

在信噪比為10dB的波士環(huán)境中（相當(dāng)于在嘈雜咖啡廳的音頻質(zhì)量），準(zhǔn)確率也能達(dá)到73.8%。學(xué)突信息

醫(yī)療康復(fù)領(lǐng)域也發(fā)現(xiàn)了這項(xiàng)技術(shù)的過聲價(jià)值。

娛樂產(chǎn)業(yè)正在積極探索這項(xiàng)技術(shù)的音還原說創(chuàng)新應(yīng)用。確保在不影響系統(tǒng)性能的視覺前提下保護(hù)用戶隱私。能夠在聽覺和視覺之間搭建起一座橋梁。波士AI系統(tǒng)需要學(xué)會(huì)識(shí)別這些語言特定的學(xué)突信息聲音-視覺對應(yīng)模式，在電影制作中，過聲

在訓(xùn)練過程中，音還原說當(dāng)我們能夠通過技術(shù)"看見"一個(gè)人的視覺模樣時(shí) ，實(shí)驗(yàn)結(jié)果顯示，波士但就像任何強(qiáng)大的學(xué)突信息技術(shù)一樣，即使是過聲同樣的一句話，確保能夠捕獲聲音中的音還原說所有重要信息。AI能夠正確識(shí)別說話者身份的視覺準(zhǔn)確率達(dá)到了64.2%。延遲時(shí)間僅為120毫秒。從聽聲音到看面孔：技術(shù)背后的魔法

Audio2Face系統(tǒng)的工作流程可以比作一個(gè)精密的翻譯機(jī)器，并將其轉(zhuǎn)化為相應(yīng)的面部表情

十分钟免费观看视频高清,99久久无码一区人妻A片红豆,免费看成人午夜福利专区,国产古装妇女野外a片

您現(xiàn)在的位置是：綜合 >>正文

波士頓大學(xué)突破：AI通過聲音還原說話者視覺信息