同時(shí),谷歌而過(guò)程監(jiān)督強(qiáng)化學(xué)習(xí)會(huì)在AI推理的團(tuán)隊(duì)每一步都提供反饋,AI解決問(wèn)題的揭秘每一步都會(huì)得到詳細(xì)的反饋。但研究團(tuán)隊(duì)正在探索讓AI在推理過(guò)程中動(dòng)態(tài)學(xué)習(xí)和調(diào)整的何像可能性。這些標(biāo)注員會(huì)仔細(xì)檢查AI生成的人類每一個(gè)推理步驟。研究團(tuán)隊(duì)需要大量經(jīng)過(guò)專業(yè)標(biāo)注的樣掌推理步驟數(shù)據(jù)。還能夠通過(guò)系統(tǒng)間的握復(fù)相互監(jiān)督進(jìn)一步提高推理質(zhì)量