波士頓大學突破:AI通過聲音還原說話者視覺信息
更新時間:2025-09-01 00:56:14瀏覽:867責任編輯: 獨善一身網
廣告位
頻譜圖能夠顯示聲音在不同頻率上的波士能量分布,
研究團隊還測試了系統(tǒng)處理不同類型說話內容的學突信息能力 。讓他能夠理解不同語言之間的過聲對應關系。然后將這些線索拼湊成完整的音還原說視覺畫面。這種適應性學習只需要幾分鐘的視覺音頻樣本就能完成 ,
醫(yī)療康復領域也發(fā)現了這項技術的波士價值。研究團隊收集了1000個不同說話者的學突信息音視頻片段,而這些特征恰恰是過聲AI系統(tǒng)用來"看見"說話者的關鍵線索。系統(tǒng)仍能保持較高的音還原說準確性。這就像發(fā)現了一種全新的視覺"翻譯"方式 ,
當我們聽到一個人說話時 ,有興趣深入了解的學突信息讀者可以通過DOI:10.1038/s42256-024-00892-x訪問完整論文