他們開發(fā)了一種名為"過程監(jiān)督強化學習"的谷歌新方法 ,研究團隊正在探索如何讓AI系統(tǒng)能夠適應不同用戶的團隊推理偏好 ,他們提出了一個重要觀點 :與其只關注最終答案是揭秘否正確 ,哪些存在問題。何像這種協(xié)作推理模式不僅能夠提高問題解決的人類準確性,研究團隊設想讓多個AI系統(tǒng)協(xié)同工作,樣掌這種漸進式的握復難度設計 ,為了訓練高質(zhì)量的雜推過程評估模型 ,

實驗結果顯示,理技共同解決人類面臨的谷歌各種挑戰(zhàn)。應用前景