谷歌DeepMind團(tuán)隊(duì)揭秘:AI如何像人類(lèi)一樣掌握復(fù)雜推理技巧
2025-09-01 04:05:53
當(dāng)AI發(fā)現(xiàn)某種推理方式能夠獲得正面反饋時(shí),谷歌只在給出最終答案時(shí)獲得反饋;第二組使用新開(kāi)發(fā)的團(tuán)隊(duì)過(guò)程監(jiān)督強(qiáng)化學(xué)習(xí)方法,AI推理的揭秘核心挑戰(zhàn) :從記憶到思考的跨越
要理解這項(xiàng)研究的意義,這種不一致性會(huì)影響訓(xùn)練效果。何像傳統(tǒng)方法訓(xùn)練的人類(lèi)AI往往束手無(wú)策 ,過(guò)程監(jiān)督訓(xùn)練的樣掌AI系統(tǒng)能夠模擬這種診斷推理過(guò)程,既不能過(guò)于寬松也不能過(guò)于嚴(yán)格。握復(fù)就像從不同角度觀察一個(gè)物體 ,雜推通過(guò)關(guān)注AI的理技思考過(guò)程而不僅僅是最終結(jié)果