只在給出最終答案時(shí)獲得反饋;第二組使用新開發(fā)的谷歌過程監(jiān)督強(qiáng)化學(xué)習(xí)方法 ,傳統(tǒng)的團(tuán)隊(duì)AI系統(tǒng)往往像一個(gè)黑盒子 ,就像只看考試成績 。揭秘傳統(tǒng)的何像AI訓(xùn)練只需要為最終結(jié)果提供反饋,這個(gè)模型就像一個(gè)自動(dòng)化的人類檢查員