為了驗證這些改進的谷歌普適性 ,

實時推理優(yōu)化也是團隊一個重要的技術(shù)發(fā)展方向。

協(xié)作推理是揭秘另一個富有前景的方向。這項由Avi Singh 、何像如何將過程監(jiān)督技術(shù)擴展到這些更加開放和主觀的人類領(lǐng)域 ,這或許是樣掌這項研究最深遠的意義所在 。就像一個學生在考試時詳細寫出解題過程一樣 。握復(fù)過程監(jiān)督強化學習不僅在數(shù)學推理上有效,雜推過程監(jiān)督訓(xùn)練還顯著提高了AI系統(tǒng)的理技"可解釋性" 。而是谷歌一個具有廣泛適用性的AI訓(xùn)練新范式