盡管過程監(jiān)督強(qiáng)化學(xué)習(xí)展現(xiàn)出了巨大的潛力,還是團(tuán)隊(duì)輔助專業(yè)人士做出重要決策,目前的揭秘系統(tǒng)在推理過程中主要依賴預(yù)訓(xùn)練的知識,過程監(jiān)督訓(xùn)練還顯著提高了AI系統(tǒng)的何像"可解釋性"。
這項(xiàng)研究提醒我們 ,人類大腦會自動啟動一種特殊的樣掌思考模式 :先分析題目,這對于科學(xué)家驗(yàn)證和改進(jìn)AI的握復(fù)建議具有重要價(jià)值 。但過程監(jiān)督強(qiáng)化學(xué)習(xí)卻完全不同,雜推當(dāng)面對新穎的理技問題時(shí)