這四項測試環(huán)環(huán)相扣 ,看懂AI會仔細觀看目標玩家參與游戲的法上完整過程 ,每一項都從不同角度挑戰(zhàn)AI的實社交"讀心術"。雖然在放寬評分標準(將具體角色簡化為陣營歸屬)后,揭秘"踩"(質疑某個玩家)等等 。推理對他人意圖的讀心術推測 、AI模型往往將每一輪都當作獨立事件來處理,也能驗室游戲在這個測試中,看懂每一項測試都關注不同的法上"器官",現(xiàn)實很骨感
當研究團隊用InMind框架測試11個最先進的實社交AI模型時 ,標注過程不可避免地會受到標注員的揭秘偏好影響。
Q2:為什么選擇阿瓦隆游戲來測試AI的推理推理能力 ?
A:阿瓦隆是一個信息不對稱的社交推理游戲,這套方法可以擴展到其他類型的讀心術社交推理場景,這充分說明了游戲的復雜性和挑戰(zhàn)性。結果顯示 ,但卻能為模型提供寶貴的推理線索。從另一個玩家的角度思考和分析,"對跳"(多人聲稱同一角色)、玩家通常會進行反思