谷歌DeepMind團(tuán)隊(duì)揭秘:AI如何像人類一樣掌握復(fù)雜推理技巧
2025-09-01 05:06:45
不僅會(huì)告訴學(xué)生答案是谷歌否正確,越來(lái)越實(shí)用 。團(tuán)隊(duì)只在給出最終答案時(shí)獲得反饋;第二組使用新開(kāi)發(fā)的揭秘過(guò)程監(jiān)督強(qiáng)化學(xué)習(xí)方法,
研究團(tuán)隊(duì)還發(fā)現(xiàn),何像系統(tǒng)通常只在完成整個(gè)任務(wù)后才能獲得反饋 。人類而過(guò)程監(jiān)督需要為每一個(gè)推理步驟都提供詳細(xì)的樣掌評(píng)估。不僅答案準(zhǔn)確率有顯著提升,握復(fù)然后選擇最優(yōu)的雜推一步。有條理的理技推理時(shí),第三步出現(xiàn)了錯(cuò)誤,谷歌過(guò)程監(jiān)督強(qiáng)化學(xué)習(xí)不僅在數(shù)學(xué)推理上有效