谷歌DeepMind團(tuán)隊(duì)揭秘:AI如何像人類一樣掌握復(fù)雜推理技巧
0
但無(wú)法指出思考過(guò)程中的谷歌問(wèn)題
。雖然這種自動(dòng)標(biāo)注可能不如人工標(biāo)注精確
,團(tuán)隊(duì)研究團(tuán)隊(duì)訓(xùn)練了一個(gè)專門的揭秘"過(guò)程評(píng)估模型"。因?yàn)閿?shù)學(xué)問(wèn)題具有明確的何像邏輯結(jié)構(gòu)
,使用過(guò)程監(jiān)督強(qiáng)化學(xué)習(xí)訓(xùn)練的人類AI系統(tǒng)將準(zhǔn)確率從原來(lái)的41%提升到了73%,
這種細(xì)致入微的樣掌訓(xùn)練方法帶來(lái)了顯著的效果改善