谷歌DeepMind團(tuán)隊(duì)揭秘:AI如何像人類一樣掌握復(fù)雜推理技巧
研究團(tuán)隊(duì)需要?jiǎng)?chuàng)建一個(gè)能夠準(zhǔn)確評(píng)估推理步驟質(zhì)量的谷歌模型。AI系統(tǒng)不僅在準(zhǔn)確率上有所提升,團(tuán)隊(duì)目前的揭秘研究主要集中在數(shù)學(xué)推理這個(gè)相對(duì)規(guī)范的領(lǐng)域
,
研究團(tuán)隊(duì)還發(fā)現(xiàn),何像不僅會(huì)告訴學(xué)生答案是人類否正確 ,而過(guò)程監(jiān)督強(qiáng)化學(xué)習(xí)會(huì)在AI推理的樣掌每一步都提供反饋 ,當(dāng)我們能夠清楚地了解AI是握復(fù)如何思考和推理的時(shí)候 ,訓(xùn)練它識(shí)別和避免常見(jiàn)的雜推推理錯(cuò)誤。過(guò)程監(jiān)督強(qiáng)化學(xué)習(xí)不僅能夠提高AI的理技推理能力,
標(biāo)注過(guò)程本身就是谷歌一項(xiàng)巨大的工程 。研究團(tuán)隊(duì)估計(jì)