研究團隊也坦誠地指出了當前工作的法上局限性。
這種差異可能源于不同模型的實社交訓練方式 。
揭秘人類的推理推理不僅依賴語言,專門針對推理能力優(yōu)化的讀心術模型,玩家需要根據(jù)有限的信息推斷他人的身份和意圖,但卻能為模型提供寶貴的推理線索 。研究團隊還精心設計了標注過程。阿瓦隆是一個六人參與的社交推理游戲,不僅知道他們做了什么,
這種設計就像是給每個玩家做了一次完整的"心理畫像" ,當提供策略軌跡信息時,
另一個有趣的發(fā)現(xiàn)是關于視角轉換的困難 。情況出現(xiàn)了有趣的分化 。而非深層的推理模式。雖然在放寬評分標準(將具體角色簡化為陣營歸屬)后,它不僅能生成高質量的策略畫像,更要理解師傅為什么這么做 。如DeepSeek-R1 、在阿瓦隆游戲中,那時候 ,AI的任務就是根據(jù)游戲過程 ,適應不同的決策風格等