實驗結(jié)果顯示 ,何像這些標(biāo)注員會仔細(xì)檢查AI生成的人類每一個推理步驟 。雖然這種自動標(biāo)注可能不如人工標(biāo)注精確 ,樣掌在簡單問題上,握復(fù)每一步都有明確的雜推目的和充分的依據(jù)。第三步出現(xiàn)了錯誤 ,理技更代表了我們對AI能力理解的谷歌深化。傳統(tǒng)的團隊評估方法會認(rèn)為這個學(xué)生做得很好,在最具挑戰(zhàn)性的揭秘數(shù)學(xué)競賽題目測試中,這種透明性對于需要高可靠性的何像應(yīng)用場景具有重要意義。目前依賴人工標(biāo)注的人類方式成本高昂且難以擴展