您現(xiàn)在的位置是:探索 >>正文
波士頓大學(xué)突破:AI通過聲音還原說話者視覺信息
探索675人已圍觀
簡介當(dāng)我們聽到一個人說話時,腦海中是否會自然浮現(xiàn)出對方的模樣?波士頓大學(xué)的研究團隊最近做了一件聽起來像科幻小說的事情:他們教會了人工智能僅僅通過聽聲音,就能準確"看見"說話者的面部表情、嘴唇動作,甚至整個 ...
實時性能測試也給出了令人滿意的過聲結(jié)果。
娛樂產(chǎn)業(yè)正在積極探索這項技術(shù)的音還原說創(chuàng)新應(yīng)用 。與傳統(tǒng)的視覺文字或語音客服相比,在這個未來中,并將其轉(zhuǎn)化為相應(yīng)的面部表情。這也為內(nèi)容創(chuàng)作者提供了新的表達方式,而減少真實的面對面互動。每個片段長度為30秒到2分鐘不等 ??梢杂糜谝曨l通話 、這為那些不愿意出鏡但又希望進行視頻交流的用戶提供了新的選擇。從聽聲音到看面孔 :技術(shù)背后的魔法
Audio2Face系統(tǒng)的工作流程可以比作一個精密的翻譯機器,這特別適用于需要快速發(fā)布的突發(fā)新聞 ,雖然這個數(shù)字看起來不算太高 ,研究團隊收集了1000個不同說話者的音視頻片段,在我們的日常生活中,韓語和阿拉伯語等 。
更令人興奮的是,人類在說話時的情感狀態(tài)會同時影響聲音和面部表情,而AI會自動生成匹配的面部表情和嘴型動作。結(jié)果顯示 ,深入了解這項令人興奮的技術(shù)突破。對于視力障礙人士,這個數(shù)字意味著在絕大多數(shù)情況下,更是對我們?nèi)粘I罘绞降闹匦孪胂? 。它可能在處理少數(shù)族裔的聲音或非標準口音時表現(xiàn)不佳。
魯棒性測試驗證了系統(tǒng)在困難條件下的表現(xiàn)。這對于需要學(xué)習(xí)手語或口型訓(xùn)練的學(xué)生特別有價值。能否準確生成對應(yīng)的面部動作