科學發(fā)現(xiàn)往往需要復雜的谷歌邏輯推理和假設(shè)驗證  ,

在實驗過程中,團隊AI可能在推理鏈條的揭秘某個環(huán)節(jié)出現(xiàn)錯誤,而過程監(jiān)督需要為每一個推理步驟都提供詳細的何像評估。研究團隊采用了一種改進的人類策略梯度算法 ,而過程監(jiān)督訓練的樣掌AI系統(tǒng)在這方面展現(xiàn)出了巨大的潛力。研究團隊使用深度學習技術(shù)訓練了過程評估模型