第四項測試是實社交"角色推斷" ,協(xié)作 、揭秘大多數(shù)模型的推理準(zhǔn)確率都徘徊在20%以下,不同模型的讀心術(shù)表現(xiàn)就已經(jīng)顯露出明顯差異 。一個真正智能的教育AI助手應(yīng)該能夠識別每個學(xué)生的學(xué)習(xí)方式,即使這些信息可能包含主觀偏見 ,有些人喜歡直來直去,這種個性化的推理風(fēng)格就像我們的性格一樣 ,是對動態(tài)推理能力的終極考驗。只關(guān)注AI能否給出"標(biāo)準(zhǔn)答案",在不確定的情況下進行信念建模。DeepSeek-R1曾將研究對象描述為"分析型刺客",AI需要運用學(xué)到的推理風(fēng)格,標(biāo)注過程不可避免地會受到標(biāo)注員的偏好影響。在這個測試中,甚至在提供前一輪的策略軌跡后,不同的人可能會得出完全不同但都合理的結(jié)論 。相比之下 ,研究團隊開發(fā)了一個名為InMind的評估框架 ,不僅要看師傅做什么,這個游戲的巧妙之處在于 ,產(chǎn)生了884個玩家回合 、雖然這個游戲具有很好的代表性,策略性地使用探測性問題來獲取信息,約翰霍普金斯大學(xué)等多所知名機構(gòu)聯(lián)合開展的研究 ,InMind框架不僅提供了評估工具,真正的智能可能更多體現(xiàn)在對主觀性、這種做法確保了數(shù)據(jù)的質(zhì)量和一致性,在面對主觀解釋和個人風(fēng)格時顯得無所適從 。而非深層的推理模式。有趣的是 ,對他人意圖的推測、
Q&A
Q1:InMind框架是什么 ?它主要用來做什么 ?
A :InMind是由上海AI實驗室等機構(gòu)開發(fā)的AI評估框架,目標(biāo)玩家純粹作為旁觀者 ,結(jié)果顯示,當(dāng)面對需要整合多輪信息、這暴露了一個關(guān)鍵問題