傳統(tǒng)方法訓練的谷歌AI往往束手無策 ,研究團隊使用深度學習技術訓練了過程評估模型 。團隊John Schulman等研究者主導的揭秘工作,團隊收集了數(shù)萬個經(jīng)過人工標注的何像推理步驟示例 。它們開始展現(xiàn)出更加穩(wěn)定和可靠的人類推理能力 。模型不僅要判斷某一步推理是樣掌否正確