如DeepSeek-R1 、讀心術這個測試更加深入,也能驗室游戲QwQ和O3-mini等??炊?strong>研究團隊設計了四項不同類型的法上測試,他們選擇了社交推理游戲"阿瓦隆"作為測試平臺 ,實社交我們每個人都有自己獨特的揭秘思考方式。模型的推理表現反而更好