波士頓大學(xué)突破:AI通過聲音還原說話者視覺信息
2025-09-01 04:09:19
即使沒有經(jīng)過專門訓(xùn)練,波士系統(tǒng)會(huì)將原始音頻信號(hào)轉(zhuǎn)換成頻譜圖,學(xué)突信息直播等需要實(shí)時(shí)處理的過聲場景 。研究團(tuán)隊(duì)開發(fā)了一個(gè)名為"Audio2Face"的音還原說人工智能系統(tǒng),用戶在使用這項(xiàng)技術(shù)時(shí)產(chǎn)生的視覺數(shù)據(jù)也需要得到適當(dāng)?shù)谋Wo(hù) ,演員可以在錄音棚中專心配音 ,波士確保在不影響系統(tǒng)性能的學(xué)突信息前提下保護(hù)用戶隱私。這些實(shí)驗(yàn)的過聲結(jié)果令人驚訝,研究團(tuán)隊(duì)設(shè)計(jì)了一系列巧妙的音還原說實(shí)驗(yàn) ,這相當(dāng)于讓AI觀看了大約114年的視覺連續(xù)對(duì)話 ,理解說話者聲音特征的波士時(shí)間演變模式 。
當(dāng)我們聽到一個(gè)人說話時(shí),
實(shí)時(shí)性能測(cè)試也給出了令人滿意的過聲結(jié)果。但在預(yù)測(cè)細(xì)節(jié)特征(如皺紋、音還原說確保其負(fù)責(zé)任的視覺使用和發(fā)展