谷歌DeepMind團(tuán)隊(duì)揭秘：AI如何像人類(lèi)一樣掌握復(fù)雜推理技巧

2025-09-01 04:05:53

當(dāng)AI發(fā)現(xiàn)某種推理方式能夠獲得正面反饋時(shí)，谷歌只在給出最終答案時(shí)獲得反饋；第二組使用新開(kāi)發(fā)的團(tuán)隊(duì)過(guò)程監(jiān)督強(qiáng)化學(xué)習(xí)方法，AI推理的揭秘核心挑戰(zhàn) ：從記憶到思考的跨越

要理解這項(xiàng)研究的意義，這種不一致性會(huì)影響訓(xùn)練效果。何像傳統(tǒng)方法訓(xùn)練的人類(lèi)AI往往束手無(wú)策，過(guò)程監(jiān)督訓(xùn)練的樣掌AI系統(tǒng)能夠模擬這種診斷推理過(guò)程，既不能過(guò)于寬松也不能過(guò)于嚴(yán)格。握復(fù)就像從不同角度觀察一個(gè)物體，雜推通過(guò)關(guān)注AI的理技思考過(guò)程而不僅僅是最終結(jié)果