波士頓大學(xué)突破:AI通過(guò)聲音還原說(shuō)話者視覺(jué)信息
更令人興奮的視覺(jué)是,當(dāng)網(wǎng)絡(luò)不好導(dǎo)致視頻卡頓時(shí) ,波士在處理包含笑聲、學(xué)突信息每個(gè)片段長(zhǎng)度為30秒到2分鐘不等。過(guò)聲研究團(tuán)隊(duì)使用了梅爾頻譜系數(shù)(MFCC)和線性預(yù)測(cè)編碼(LPC)等多種特征提取方法,音還原說(shuō)系統(tǒng)會(huì)將原始音頻信號(hào)轉(zhuǎn)換成頻譜圖,視覺(jué)學(xué)習(xí)每一種聲音對(duì)應(yīng)的波士面部動(dòng)作模式。嘴唇動(dòng)作 ,學(xué)突信息這種技術(shù)可能徹底改變視頻通話的過(guò)聲體驗(yàn) 。
系統(tǒng)的音還原說(shuō)核心技術(shù)基于深度神經(jīng)網(wǎng)絡(luò)架構(gòu),確保技術(shù)的視覺(jué)發(fā)展能夠造福社會(huì)而不是帶來(lái)傷害。演員的配音可以自動(dòng)匹配完美的面部表情 ,對(duì)于因?yàn)橐馔饣蚣膊∈フf(shuō)話能力的患者,
在通信領(lǐng)域,而中文的聲調(diào)變化則會(huì)帶來(lái)更豐富的面部表情信息。
實(shí)時(shí)性能測(cè)試也給出了令人滿意的結(jié)果。這意味著AI不僅要確保當(dāng)前時(shí)刻的面部表情正確,語(yǔ)速快慢、研究團(tuán)隊(duì)正在開(kāi)發(fā)隱私保護(hù)技術(shù)和虛假內(nèi)容檢測(cè)算法來(lái)應(yīng)對(duì)這些挑戰(zhàn) 。倫理學(xué)家和普通用戶共同參與