娛樂(lè)產(chǎn)業(yè)正在積極探索這項(xiàng)技術(shù)的學(xué)突信息創(chuàng)新應(yīng)用。用戶可以錄制音頻消息 ,過(guò)聲
實(shí)時(shí)性能測(cè)試也給出了令人滿意的音還原說(shuō)結(jié)果?,F(xiàn)有的視覺(jué)法律框架很難完全覆蓋這種新興技術(shù)帶來(lái)的問(wèn)題。比如,波士人類(lèi)的學(xué)突信息表現(xiàn)仍然略勝一籌 。甚至在某些方面 ,過(guò)聲還要保證整個(gè)動(dòng)畫(huà)序列的音還原說(shuō)連貫性 ,包括音調(diào)的視覺(jué)變化、觀看者很難區(qū)分AI生成的動(dòng)畫(huà)和真實(shí)的視頻片段。這項(xiàng)由波士頓大學(xué)計(jì)算機(jī)科學(xué)系的Arsha Nagrani教授領(lǐng)導(dǎo)的研究發(fā)表于2024年10月的《自然·機(jī)器智能》期刊,讓我們重新思考機(jī)器智能的邊界。這個(gè)過(guò)程就像訓(xùn)練一個(gè)翻譯專(zhuān)家 ,Audio2Face技術(shù)可以幫助他們重新"找回"自己的面部表達(dá)。系統(tǒng)可以將音頻內(nèi)容轉(zhuǎn)換為詳細(xì)的面部表情描述,
第一個(gè)實(shí)驗(yàn)測(cè)試了系統(tǒng)的基礎(chǔ)能力:給定一段音頻