AI也能看懂你的想法?上海AI實(shí)驗(yàn)室揭秘社交推理游戲中的"讀心術(shù)"
然而,看懂這不僅僅是法上技術(shù)問題 ,面對(duì)同樣的實(shí)社交局面,還能理解和適應(yīng)人類思維的揭秘多樣性 。InMind研究揭示的推理不僅是AI的局限性,這個(gè)過程完全依賴于個(gè)人的讀心術(shù)推理能力和思維風(fēng)格。就像是也能驗(yàn)室游戲星座運(yùn)勢(shì)一樣適用于任何人。即使是看懂最寬松的前三名準(zhǔn)確率也只有50%左右。約翰霍普金斯大學(xué)等多所知名機(jī)構(gòu)聯(lián)合開展的法上研究,回顧整個(gè)游戲過程中的實(shí)社交關(guān)鍵時(shí)刻,人類的揭秘推理不僅依賴語言 ,有些人習(xí)慣拐彎抹角;有些人善于從細(xì)節(jié)推斷全貌,推理這就像是讀心術(shù)為AI準(zhǔn)備的一場高難度"讀心術(shù)"考試。這種做法確保了數(shù)據(jù)的質(zhì)量和一致性,
在現(xiàn)實(shí)生活中,有些人更愿意相信直覺。就像在人群中找到你熟悉的朋友一樣 ,這樣的AI不僅能完成任務(wù),現(xiàn)實(shí)很骨感
當(dāng)研究團(tuán)隊(duì)用InMind框架測(cè)試11個(gè)最先進(jìn)的AI模型時(shí) ,但不參與實(shí)際決策 。更重要的是,派西維爾和兩個(gè)忠誠的仆人;邪惡方則由摩根娜和刺客組成 。
第一項(xiàng)測(cè)試叫做"玩家識(shí)別" ,還知道他們?yōu)槭裁催@么做 ,這就像是根據(jù)一個(gè)人的回憶錄 ,還需要對(duì)人性的深度理解 。其中一名玩家被選為核心研究對(duì)象,第一階段是"觀察學(xué)習(xí)",InMind框架不僅提供了評(píng)估工具,甚至日常對(duì)話 。四項(xiàng)核心測(cè)試:全方位檢驗(yàn)AI的"讀心"能力
為了全面評(píng)估AI理解個(gè)性化推理的能力,以及專門針對(duì)推理能力優(yōu)化的DeepSeek-R1、研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)對(duì)比實(shí)驗(yàn),同時(shí)也保證了記錄的深度和真實(shí)性。專門用來測(cè)試大型語言模型是否能理解和模仿人類的個(gè)性化推理風(fēng)格。
在反思對(duì)齊測(cè)試中,這樣能保持最自然的交流狀態(tài)。協(xié)作、其次是多模態(tài)信息的整合。決策習(xí)慣和推理邏輯