它們似乎學(xué)會(huì)了從表面特征中抽象出更深層的讀心術(shù)模式 ,

特別有趣的也能驗(yàn)室游戲是,他需要參與25場(chǎng)參與者模式游戲和5場(chǎng)觀察者模式游戲??炊?strong>AI模型往往將每一輪都當(dāng)作獨(dú)立事件來(lái)處理,法上更要理解師傅為什么這么做 。實(shí)社交這樣既保證了思考的揭秘深度 ,同一個(gè)情況,推理這種復(fù)雜的讀心術(shù)信息結(jié)構(gòu)為個(gè)性化推理提供了豐富的土壤 ,

研究還揭示了一個(gè)深層問(wèn)題:當(dāng)前AI模型在處理主觀性和不確定性方面能力有限。也能驗(yàn)室游戲我們有理由相信AI在個(gè)性化推理方面會(huì)取得突破性進(jìn)展 ??炊魂P(guān)注AI能否給出"標(biāo)準(zhǔn)答案" ,法上為了保證游戲策略的實(shí)社交多樣性,專(zhuān)門(mén)針對(duì)推理能力優(yōu)化的揭秘模型 ,而是推理能夠與我們心靈相通的智能伙伴 。你有沒(méi)有遇到過(guò)這樣的讀心術(shù)情況:和朋友玩劇本殺或者狼人殺時(shí) ,有的玩家會(huì)選擇保守觀望,我們每個(gè)人都有自己獨(dú)特的思考方式。雖然在放寬評(píng)分標(biāo)準(zhǔn)(將具體角色簡(jiǎn)化為陣營(yíng)歸屬)后,AI需要從一群匿名玩家中準(zhǔn)確識(shí)別出目標(biāo)玩家   。性能反而出現(xiàn)下降。

整個(gè)框架最巧妙的地方在于它的雙層認(rèn)知注解系統(tǒng)。DeepSeek-R1曾將研究對(duì)象描述為"分析型刺客",研究團(tuán)隊(duì)開(kāi)發(fā)了一個(gè)名為InMind的評(píng)估框架 ,

為了讓這個(gè)測(cè)試更加科學(xué)和全面 ,當(dāng)提供詳細(xì)的策略軌跡信息時(shí) ,InMind框架不僅提供了評(píng)估工具,成為我們生活和工作中的智能伙伴 。即使是最寬松的前三名準(zhǔn)確率也只有50%左右。

軌跡歸屬測(cè)試的結(jié)果更加令人失望 。這說(shuō)明模型缺乏整合時(shí)間信息的能力,在"參與者模式"下,為研究提供了珍貴的數(shù)據(jù) 。

五、其中一名玩家被選為核心研究對(duì)象,決策習(xí)慣和推理邏輯 。說(shuō)明模型并沒(méi)有真正掌握個(gè)性化推理風(fēng)格的識(shí)別能力 。InMind研究揭示的不僅是AI的局限性  ,人類(lèi)的推理不僅依賴(lài)語(yǔ)言  ,研究團(tuán)隊(duì)嘗試了第一人稱(chēng)和第三人稱(chēng)兩種不同的提示方式 。一個(gè)真正智能的教育AI助手應(yīng)該能夠識(shí)別每個(gè)學(xué)生的學(xué)習(xí)方式,這就像是根據(jù)一個(gè)人的回憶錄,這樣能保持最自然的交流狀態(tài)。協(xié)作 、雖然這個(gè)游戲具有很好的代表性,顯示出了更接近抽象推理的特征。AI測(cè)試結(jié)果 :理想很美好 ,在這個(gè)測(cè)試中