團(tuán)隊收集了數(shù)萬個經(jīng)過人工標(biāo)注的谷歌推理步驟示例。過程監(jiān)督強(qiáng)化學(xué)習(xí) :重塑AI的團(tuán)隊思考方式

研究團(tuán)隊開發(fā)的核心技術(shù)被稱為"過程監(jiān)督強(qiáng)化學(xué)習(xí)",過程監(jiān)督訓(xùn)練還顯著提高了AI系統(tǒng)的揭秘"可解釋性"