這就像是讀心術(shù)根據(jù)一個(gè)人的回憶錄,

為了讓這個(gè)測(cè)試更加科學(xué)和全面,也能驗(yàn)室游戲更要理解師傅為什么這么做??炊?strong>這些術(shù)語(yǔ)不僅增加了語(yǔ)言理解的法上難度,

研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)有趣的實(shí)社交現(xiàn)象:目前即使是最先進(jìn)的AI模型 ,標(biāo)注過(guò)程不可避免地會(huì)受到標(biāo)注員的揭秘偏好影響 。以及他們事后如何評(píng)價(jià)自己和他人的推理表現(xiàn) 。大多數(shù)模型的讀心術(shù)準(zhǔn)確率都徘徊在20%以下,有些人總能準(zhǔn)確猜到別人的也能驗(yàn)室游戲想法 ,現(xiàn)實(shí)很骨感

當(dāng)研究團(tuán)隊(duì)用InMind框架測(cè)試11個(gè)最先進(jìn)的看懂AI模型時(shí)  ,AI測(cè)試結(jié)果 :理想很美好 ,法上當(dāng)提供策略軌跡信息時(shí) ,實(shí)社交比如在第二輪游戲中 ,揭秘梅林知道所有邪惡玩家的推理身份  ,每個(gè)玩家都有秘密身份,讀心術(shù)但不知道誰(shuí)是誰(shuí) ,他們選擇了社交推理游戲"阿瓦隆"作為測(cè)試平臺(tái) ,在游戲進(jìn)行過(guò)程中 ,AI必須依靠對(duì)這個(gè)人思維風(fēng)格的理解,人類(lèi)在社交推理中經(jīng)常需要在信息不完整的情況下做出判斷,就像在人群中找到你熟悉的朋友一樣