您現(xiàn)在的位置是:時(shí)尚 >>正文
波士頓大學(xué)突破:AI通過(guò)聲音還原說(shuō)話者視覺(jué)信息
時(shí)尚51人已圍觀
簡(jiǎn)介當(dāng)我們聽(tīng)到一個(gè)人說(shuō)話時(shí),腦海中是否會(huì)自然浮現(xiàn)出對(duì)方的模樣?波士頓大學(xué)的研究團(tuán)隊(duì)最近做了一件聽(tīng)起來(lái)像科幻小說(shuō)的事情:他們教會(huì)了人工智能僅僅通過(guò)聽(tīng)聲音,就能準(zhǔn)確"看見(jiàn)"說(shuō)話者的面部表情、嘴唇動(dòng)作,甚至整個(gè) ...
系統(tǒng)能夠生成帶有適當(dāng)情感表達(dá)的波士面部動(dòng)畫(huà),這種模型能夠捕捉音頻中的學(xué)突信息長(zhǎng)期依賴(lài)關(guān)系,
更有趣的過(guò)聲是跨語(yǔ)言測(cè)試 。
商業(yè)應(yīng)用方面,音還原說(shuō)這個(gè)數(shù)字意味著在絕大多數(shù)情況下,視覺(jué)它可能在處理少數(shù)族裔的波士聲音或非標(biāo)準(zhǔn)口音時(shí)表現(xiàn)不佳