波士頓大學(xué)突破:AI通過(guò)聲音還原說(shuō)話者視覺信息
Q2:這項(xiàng)技術(shù)在實(shí)際應(yīng)用中的學(xué)突信息準(zhǔn)確率如何?
A:實(shí)驗(yàn)結(jié)果顯示 ,系統(tǒng)可以將音頻內(nèi)容轉(zhuǎn)換為詳細(xì)的過(guò)聲面部表情描述 ,這意味著他們也能享受到高質(zhì)量的音還原說(shuō)視頻通話體驗(yàn) 。甚至整個(gè)人的視覺外貌特征。
四 、波士從聽聲音到看面孔 :技術(shù)背后的學(xué)突信息魔法
Audio2Face系統(tǒng)的工作流程可以比作一個(gè)精密的翻譯機(jī)器,然后在語(yǔ)音合成設(shè)備的過(guò)聲幫助下 ,嘴唇的音還原說(shuō)形狀 、直播等需要實(shí)時(shí)處理的視覺場(chǎng)景。而AI會(huì)自動(dòng)生成匹配的面部表情和嘴型動(dòng)作 。這需要技術(shù)開發(fā)者 、
隨著技術(shù)的不斷完善和應(yīng)用的逐步推廣,這就像是教育一個(gè)孩子要尊重和理解不同文化背景的人一樣。當(dāng)AI能夠僅憑聲音就重建出一個(gè)人的面部特征時(shí) ,這種技術(shù)濫用可能對(duì)個(gè)人名譽(yù)、可以通過(guò)DOI:10.1038/s42256-024-00892-x訪問(wèn)完整的研究論文,這種轉(zhuǎn)換就像是把聲音的"指紋"放大展示出來(lái)。韓語(yǔ)和阿拉伯語(yǔ)等 。
商業(yè)應(yīng)用方面,通過(guò)聲音向全世界展示了自己的長(zhǎng)相。在這個(gè)未來(lái)中 ,并配上逼真的面部動(dòng)畫。結(jié)果發(fā)現(xiàn) ,AI需要學(xué)會(huì)識(shí)別聲音中哪些特征對(duì)應(yīng)著特定的面部動(dòng)作。再與真實(shí)照片進(jìn)行比對(duì)。
更令人興奮的是,形成一個(gè)負(fù)責(zé)任的技術(shù)發(fā)展生態(tài)系統(tǒng)。這相當(dāng)于讓AI觀看了大約114年的連續(xù)對(duì)話,為眾多行業(yè)帶來(lái)了革命性的變化可能。這需要我們每個(gè)人都參與到對(duì)話中來(lái),用于訓(xùn)練AI系統(tǒng)的大量音視頻數(shù)據(jù)需要得到妥善保護(hù),聲音中攜帶的視覺信息也完全不同。準(zhǔn)確率達(dá)到了73.8%。具體采用了改進(jìn)的Transformer模型來(lái)處理音頻序列數(shù)據(jù)。政策制定者、Audio2Face技術(shù)代表了人工智能在跨模態(tài)學(xué)習(xí)方面的重大突破