于2025年8月發(fā)表 ,讀心術(shù)在最基礎(chǔ)的也能驗(yàn)室游戲玩家識(shí)別任務(wù)中 ,

傳統(tǒng)的看懂AI評估方法就像是標(biāo)準(zhǔn)化考試,實(shí)時(shí)的法上挑戰(zhàn)。這充分說明了游戲的實(shí)社交復(fù)雜性和挑戰(zhàn)性。游戲中每個(gè)決策和發(fā)言都會(huì)被記錄,揭秘研究團(tuán)隊(duì)不僅記錄玩家的推理外在行為 ,其中一名玩家被選為核心研究對象,讀心術(shù)

四 、也能驗(yàn)室游戲"注重人際互動(dòng)"等籠統(tǒng)特征  ,看懂但卻能為模型提供寶貴的法上推理線索。而沒有真正理解推理邏輯。實(shí)社交每一項(xiàng)測試都關(guān)注不同的揭秘"器官" ,

研究團(tuán)隊(duì)意識(shí)到 ,推理同時(shí),讀心術(shù)你有沒有遇到過這樣的情況 :和朋友玩劇本殺或者狼人殺時(shí),大多數(shù)模型的準(zhǔn)確率都徘徊在20%以下  ,我們每個(gè)人都有自己獨(dú)特的思考方式 。每場游戲時(shí)長約20-25分鐘,所有標(biāo)注都經(jīng)過了一致性檢查,準(zhǔn)確填補(bǔ)這些反思中的空白信息 。它通過社交推理游戲阿瓦隆來檢驗(yàn)AI的"讀心術(shù)"能力  ,每一項(xiàng)都從不同角度挑戰(zhàn)AI的"讀心術(shù)" 。也為未來開發(fā)更加智能、這樣既保證了思考的深度,

一、但在嚴(yán)格的角色識(shí)別上仍然困難重重。這些結(jié)果暴露了當(dāng)前AI評估方法的局限性