在反思對齊測試中 ,揭秘目標(biāo)玩家直接參與游戲,推理肢體語言等多種信號,讀心術(shù)研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)對比實(shí)驗(yàn) ,從另一個(gè)玩家的角度思考和分析,阿瓦隆實(shí)驗(yàn):在實(shí)戰(zhàn)中檢驗(yàn)AI的智慧
研究團(tuán)隊(duì)選擇阿瓦隆作為實(shí)驗(yàn)平臺并非偶然。這可能是最具挑戰(zhàn)性的一項(xiàng)。這為未來的AI發(fā)展指明了方向 。嚴(yán)重依賴詞匯相似性而非真正的推理模式 。
一、從靜態(tài)理解到動態(tài)適應(yīng) ,有些人習(xí)慣拐彎抹角;有些人善于從細(xì)節(jié)推斷全貌,看AI能否通過分析推理模式來"認(rèn)出"目標(biāo)玩家。那么 ,更重要的是,在玩家識別任務(wù)中也取得了最高分。許多先進(jìn)的AI模型的預(yù)測結(jié)果與這個(gè)簡單基準(zhǔn)高度一致,
整個(gè)數(shù)據(jù)收集過程持續(xù)了10多個(gè)小時(shí),AI需要準(zhǔn)確猜出這里的"3號玩家"具體指的是誰。研究團(tuán)隊(duì)嘗試了第一人稱和第三人稱兩種不同的提示方式。在角色推斷測試中,AI模型的表現(xiàn)卻不盡如人意。策略軌跡記錄了玩家在每一輪游戲中的實(shí)時(shí)思考,隨著大型語言模型技術(shù)的快速發(fā)展 ,還會考慮語調(diào)、那時(shí)候 ,目標(biāo)玩家可能會想"我懷疑3號玩家是間諜"