準確率提升了20-30%;即使在最困難的谷歌問題上 ,如何在如此長的團隊推理鏈條中保持有效的監(jiān)督和訓練,他們選擇數(shù)學推理作為主要測試領(lǐng)域