他們開發(fā)了一種名為"過程監(jiān)督強(qiáng)化學(xué)習(xí)"的谷歌新方法,這種高質(zhì)量標(biāo)注數(shù)據(jù)的團(tuán)隊(duì)獲取成本非常高昂  。每一步推理都建立在前面正確結(jié)果的揭秘基礎(chǔ)上