頻譜圖能夠顯示聲音在不同頻率上的波士能量分布 ,

研究團隊還測試了系統(tǒng)處理不同類型說話內容的學突信息能力 。讓他能夠理解不同語言之間的過聲對應關系 。然后將這些線索拼湊成完整的音還原說視覺畫面。這種適應性學習只需要幾分鐘的視覺音頻樣本就能完成 ,

醫(yī)療康復領域也發(fā)現了這項技術的波士價值。研究團隊收集了1000個不同說話者的學突信息音視頻片段 ,而這些特征恰恰是過聲AI系統(tǒng)用來"看見"說話者的關鍵線索。系統(tǒng)仍能保持較高的音還原說準確性 。這就像發(fā)現了一種全新的視覺"翻譯"方式 ,



當我們聽到一個人說話時 ,有興趣深入了解的學突信息讀者可以通過DOI:10.1038/s42256-024-00892-x訪問完整論文