他們的谷歌研究成果發(fā)表在2024年的《自然·機(jī)器智能》期刊上  。過(guò)程監(jiān)督強(qiáng)化學(xué)習(xí)不僅在數(shù)學(xué)推理上有效