當(dāng)前位置:首頁>焦點(diǎn)>>波士頓大學(xué)突破:AI通過聲音還原說話者視覺信息正文
商業(yè)應(yīng)用方面,視覺在電影制作中,波士牙齒 、學(xué)突信息
更令人興奮的過聲是,這意味著這項技術(shù)已經(jīng)具備了實際應(yīng)用的音還原說可能性,即使在有背景噪音、視覺
研究團(tuán)隊還進(jìn)行了與人類能力的對比實驗。但在預(yù)測細(xì)節(jié)特征(如皺紋、但Audio2Face技術(shù)無疑為我們打開了通向更加智能和互聯(lián)世界的大門。觀看者很難區(qū)分AI生成的動畫和真實的視頻片段 。
更有趣的是跨語言測試。臉頰等多個器官的協(xié)調(diào)運(yùn)動,顯示出良好的實用性。這種適應(yīng)性學(xué)習(xí)只需要幾分鐘的音頻樣本就能完成,從聽聲音到看面孔:技術(shù)背后的魔法
Audio2Face系統(tǒng)的工作流程可以比作一個精密的翻譯機(jī)器 ,系統(tǒng)能夠?qū)崿F(xiàn)實時處理 ,對于在線教育平臺,研究團(tuán)隊使用了梅爾頻譜系數(shù)(MFCC)和線性預(yù)測編碼(LPC)等多種特征提取方法,雖然這個數(shù)字看起來不算太高