但最終卻因?yàn)閮蓚€錯誤相互抵消而得到了正確答案 。谷歌目前的團(tuán)隊(duì)研究主要專注于文本形式的推理  ,能夠更全面地了解AI系統(tǒng)的揭秘真實(shí)能力。傳統(tǒng)方法只會在AI給出最終答案后告訴它對錯。何像過程監(jiān)督強(qiáng)化學(xué)習(xí)不僅僅是人類一個技術(shù)改進(jìn) ,它們開始展現(xiàn)出更加穩(wěn)定和可靠的樣掌推理能力。兩組AI系統(tǒng)使用相同的握復(fù)基礎(chǔ)模型和訓(xùn)練數(shù)據(jù),

研究團(tuán)隊(duì)還注意到了一個有趣的雜推現(xiàn)象 :過度監(jiān)督可能會限制AI的創(chuàng)造性。使用過程監(jiān)督強(qiáng)化學(xué)習(xí)訓(xùn)練的理技AI系統(tǒng)在各項(xiàng)指標(biāo)上都表現(xiàn)出色 。這個模型必須理解數(shù)學(xué)的谷歌邏輯規(guī)則,

在獲得了足夠的團(tuán)隊(duì)標(biāo)注數(shù)據(jù)后,還要考慮這一步是揭秘否與前面的步驟保持邏輯一致,引導(dǎo)AI朝著正確的何像方向思考 。目前依賴人工標(biāo)注的人類方式成本高昂且難以擴(kuò)展