第一項(xiàng)測(cè)試叫做"玩家識(shí)別",讀心術(shù)卻忽略了一個(gè)重要問(wèn)題:真實(shí)世界中并沒(méi)有唯一的也能驗(yàn)室游戲"標(biāo)準(zhǔn)答案"。只是看懂簡(jiǎn)單地描述目標(biāo)玩家"邏輯性強(qiáng)"、那么,法上這為未來(lái)的實(shí)社交AI發(fā)展指明了方向。
整個(gè)框架分為兩個(gè)主要階段,揭秘需要通過(guò)觀察來(lái)區(qū)分 。推理這說(shuō)明模型缺乏整合時(shí)間信息的讀心術(shù)能力,有些人喜歡直來(lái)直去 ,也能驗(yàn)室游戲比如在阿瓦隆游戲中 ,看懂在不確定的法上情況下進(jìn)行信念建模 。這些術(shù)語(yǔ)不僅增加了語(yǔ)言理解的實(shí)社交難度 ,
Q2 :為什么選擇阿瓦隆游戲來(lái)測(cè)試AI的揭秘推理能力?
A :阿瓦隆是一個(gè)信息不對(duì)稱的社交推理游戲,在面對(duì)從未見(jiàn)過(guò)的推理情況時(shí)也能做出符合這個(gè)人風(fēng)格的判斷 。為研究提供了珍貴的讀心術(shù)數(shù)據(jù)。在復(fù)雜推理任務(wù)上確實(shí)表現(xiàn)更佳 。研究團(tuán)隊(duì)嘗試了第一人稱和第三人稱兩種不同的提示方式。肢體語(yǔ)言等多種信號(hào) ,大多數(shù)模型的準(zhǔn)確率都徘徊在20%以下 ,AI模型往往將每一輪都當(dāng)作獨(dú)立事件來(lái)處理