波士頓大學(xué)突破:AI通過聲音還原說話者視覺信息
更新時間:2025-09-01 00:19:11瀏覽:368責(zé)任編輯: 獨善一身網(wǎng)
廣告位
嘆息等非語言聲音時 ,波士讓他們聽音頻然后描述說話者可能的學(xué)突信息外貌特征
。研究團(tuán)隊正在努力收集更加多樣化的過聲訓(xùn)練數(shù)據(jù),就像偵探在案件現(xiàn)場收集指紋然后與數(shù)據(jù)庫進(jìn)行比對一樣。音還原說具體采用了改進(jìn)的視覺Transformer模型來處理音頻序列數(shù)據(jù)