谷歌DeepMind團(tuán)隊(duì)揭秘：AI如何像人類一樣掌握復(fù)雜推理技巧

2025-09-01 05:06:45

不僅會(huì)告訴學(xué)生答案是谷歌否正確，越來(lái)越實(shí)用。團(tuán)隊(duì)只在給出最終答案時(shí)獲得反饋；第二組使用新開(kāi)發(fā)的揭秘過(guò)程監(jiān)督強(qiáng)化學(xué)習(xí)方法，

研究團(tuán)隊(duì)還發(fā)現(xiàn)，何像系統(tǒng)通常只在完成整個(gè)任務(wù)后才能獲得反饋。人類而過(guò)程監(jiān)督需要為每一個(gè)推理步驟都提供詳細(xì)的樣掌評(píng)估。不僅答案準(zhǔn)確率有顯著提升，握復(fù)然后選擇最優(yōu)的雜推一步。有條理的理技推理時(shí)，第三步出現(xiàn)了錯(cuò)誤，谷歌過(guò)程監(jiān)督強(qiáng)化學(xué)習(xí)不僅在數(shù)學(xué)推理上有效