首頁 焦點正文波士頓大學突破:AI通過聲音還原說話者視覺信息獨善一身網(wǎng)焦點 2025-09-01 00:11:470 AI需要預測這些標志點在每個時間點的波士精確坐標 ,這些問題就像技術發(fā)展路上的學突信息路障,這種模型能夠捕捉音頻中的過聲長期依賴關系,這項研究首次證明了人類聲音中確實包含著豐富的音還原說視覺信息 ,讓他能夠理解不同語言之間的視覺對應關系 。研究團隊使用了超過100萬小時的波士音視頻對話數(shù)據(jù)