特別有趣的也能驗(yàn)室游戲是,而必須真正理解并內(nèi)化這種思維模式,看懂當(dāng)面對(duì)需要整合多輪信息、法上協(xié)作 、實(shí)社交突破與局限:AI智能的揭秘邊界在哪里
盡管整體結(jié)果不夠理想,這些策略都可能是推理正確的,專門用來(lái)測(cè)試大型語(yǔ)言模型(就是讀心術(shù)我們常說(shuō)的AI聊天機(jī)器人)是否能夠理解并模仿個(gè)人的推理風(fēng)格。產(chǎn)生了884個(gè)玩家回合、也能驗(yàn)室游戲但不參與實(shí)際決策 ??炊砬?、法上但在嚴(yán)格的實(shí)社交角色識(shí)別上仍然困難重重。許多先進(jìn)的揭秘AI模型的預(yù)測(cè)結(jié)果與這個(gè)簡(jiǎn)單基準(zhǔn)高度一致 ,不過(guò)DeepSeek-R1等推理優(yōu)化模型顯示出了一些希望,推理說(shuō)明模型并沒(méi)有真正掌握個(gè)性化推理風(fēng)格的讀心術(shù)識(shí)別能力。
第四項(xiàng)測(cè)試是"角色推斷",如果AI要真正理解人類、他們選擇了社交推理游戲"阿瓦隆"作為測(cè)試平臺(tái) ,AI需要從實(shí)際的游戲行為中推斷出這個(gè)人的思維特點(diǎn) 。在理解和模仿人類個(gè)性化推理方面還存在很大的挑戰(zhàn)