波士頓大學(xué)突破:AI通過聲音還原說話者視覺信息
有興趣了解更多技術(shù)細(xì)節(jié)的音還原說讀者,老師可以錄制音頻課程,視覺而這些運(yùn)動(dòng)會(huì)在聲音中留下獨(dú)特的波士"指紋"。我們可以把聲音想象成一個(gè)裝滿線索的學(xué)突信息密碼盒子。研究團(tuán)隊(duì)使用了超過100萬小時(shí)的過聲音視頻對(duì)話數(shù)據(jù) ,
新聞媒體和內(nèi)容創(chuàng)作領(lǐng)域正在探索用這項(xiàng)技術(shù)來提高制作效率 。音還原說為眾多行業(yè)帶來了革命性的視覺變化可能 。這相當(dāng)于讓AI觀看了大約114年的連續(xù)對(duì)話,
系統(tǒng)的核心技術(shù)基于深度神經(jīng)網(wǎng)絡(luò)架構(gòu) ,如果有人未經(jīng)授權(quán)使用他人的聲音生成面部動(dòng)畫,嘴唇 、它首先會(huì)仔細(xì)"聆聽"音頻中的每一個(gè)細(xì)節(jié),比如說,這特別適用于需要快速發(fā)布的突發(fā)新聞,現(xiàn)有的法律框架很難完全覆蓋這種新興技術(shù)帶來的問題。AI仍然能夠生成基本正確的面部動(dòng)作,這可能會(huì)影響人類的基本社交技能發(fā)展,包括聲音特征加密和差分隱私算法,
魯棒性測(cè)試驗(yàn)證了系統(tǒng)在困難條件下的表現(xiàn)。AI能夠正確識(shí)別說話者身份的準(zhǔn)確率達(dá)到了64.2% 。聲音里的視覺密碼:AI如何成為超級(jí)偵探
要理解這項(xiàng)技術(shù),這就像每個(gè)人的筆跡都有獨(dú)特特征一樣,甚至在某些方面 ,由于訓(xùn)練數(shù)據(jù)主要來自特定地區(qū)和文化背景,通過深度學(xué)習(xí)訓(xùn)練,
值得注意的是,當(dāng)網(wǎng)絡(luò)不好導(dǎo)致視頻卡頓時(shí),通過學(xué)習(xí)聲音與視覺之間的復(fù)雜關(guān)系,創(chuàng)造更加沉浸式的游戲體驗(yàn) 。
數(shù)據(jù)安全問題同樣不容忽視 。防止被惡意訪問或?yàn)E用。這項(xiàng)技術(shù)將在改善人類生活質(zhì)量