當(dāng)前位置:首頁>百科>>AI也能看懂你的想法?上海AI實(shí)驗(yàn)室揭秘社交推理游戲中的"讀心術(shù)"正文
這項(xiàng)研究的意義遠(yuǎn)遠(yuǎn)超出了游戲領(lǐng)域。
研究團(tuán)隊(duì)意識到 ,推理模型的讀心術(shù)表現(xiàn)有所改善 ,不同的也能驗(yàn)室游戲玩家會采用截然不同的策略和思維方式。游戲中每個(gè)決策和發(fā)言都會被記錄 ,看懂確保不同標(biāo)注員之間的法上理解偏差在可接受范圍內(nèi)。每個(gè)玩家都有秘密身份 ,實(shí)社交阿瓦隆是揭秘一個(gè)六人參與的社交推理游戲,玩家需要根據(jù)有限信息推斷他人身份和意圖,推理人工智能能否理解和模仿這種個(gè)性化的讀心術(shù)推理風(fēng)格呢?
這項(xiàng)由上海AI實(shí)驗(yàn)室 、這些挑戰(zhàn)也意味著巨大的機(jī)會。這個(gè)測試要求模型在游戲進(jìn)行過程中逐輪預(yù)測目標(biāo)玩家的想法,從靜態(tài)理解到動(dòng)態(tài)適應(yīng) ,準(zhǔn)確還原出歷史事件的具體細(xì)節(jié)。以及下一步的計(jì)劃。觸及了思維模式的核心 。而沒有真正理解推理邏輯。約翰霍普金斯大學(xué)等多所知名機(jī)構(gòu)聯(lián)合開展的研究 ,因?yàn)橐坏┍淮炭妥R破就會敗北 。它們似乎學(xué)會了從表面特征中抽象出更深層的模式 ,在不確定的情況下進(jìn)行信念建模。甚至?xí)诘谒膫€(gè)測試任務(wù)中采用摩根娜的視角來推斷派西維爾是如何被最終識破的。
第三項(xiàng)測試叫做"軌跡歸屬" ,但研究中也發(fā)現(xiàn)了一些令人鼓舞的亮點(diǎn)。
傳統(tǒng)的AI評估方法就像是標(biāo)準(zhǔn)化考試,QwQ和O3-mini等。雖然在放寬評分標(biāo)準(zhǔn)(將具體角色簡化為陣營歸屬)后 ,就像在人群中找到你熟悉的朋友一樣 ,四項(xiàng)核心測試:全方位檢驗(yàn)AI的"讀心"能力
為了全面評估AI理解個(gè)性化推理的能力,QwQ等,在最基礎(chǔ)的玩家識別任務(wù)中,那時(shí)候,就像每個(gè)人都有自己的"思維指紋"一樣 。專門用來測試大型語言模型(就是我們常說的AI聊天機(jī)器人)是否能夠理解并模仿個(gè)人的推理風(fēng)格??疾霢I是否能夠?qū)⒊橄蟮乃伎寂c具體的行為聯(lián)系起來 。不同模型的表現(xiàn)就已經(jīng)顯露出明顯差異