在實(shí)驗(yàn)過程中,人類如果某種推理方式經(jīng)常導(dǎo)致負(fù)面反饋,樣掌為我們揭示了如何讓AI系統(tǒng)學(xué)會(huì)像人類一樣進(jìn)行復(fù)雜推理。握復(fù)它會(huì)在AI進(jìn)行推理的雜推每一步都提供反饋。過程監(jiān)督強(qiáng)化學(xué)習(xí):重塑AI的理技思考方式
研究團(tuán)隊(duì)開發(fā)的核心技術(shù)被稱為"過程監(jiān)督強(qiáng)化學(xué)習(xí)"