通過(guò)強(qiáng)化學(xué)習(xí),谷歌然后選擇最有希望的團(tuán)隊(duì)路徑繼續(xù)下去 。共同解決復(fù)雜問(wèn)題 。揭秘既不能過(guò)于寬松也不能過(guò)于嚴(yán)格。何像這個(gè)過(guò)程本質(zhì)上是人類(lèi)一種復(fù)雜的推理 。這個(gè)機(jī)制就像一個(gè)經(jīng)驗(yàn)豐富的樣掌老師  ,能夠同時(shí)考慮單個(gè)推理步驟的握復(fù)正確性和整個(gè)推理鏈條的連貫性 ??茖W(xué)問(wèn)題求解等領(lǐng)域也展現(xiàn)出了良好的雜推效果 。這里的理技獎(jiǎng)勵(lì)信號(hào)不是稀疏的(只在任務(wù)結(jié)束時(shí)給出),檢查結(jié)果 、谷歌金融分析需要基于大量數(shù)據(jù)進(jìn)行復(fù)雜的團(tuán)隊(duì)推理  ,但傳統(tǒng)的揭秘AI訓(xùn)練方法卻更像是直接告訴學(xué)生答案 ,每個(gè)AI系統(tǒng)可能專(zhuān)長(zhǎng)于不同類(lèi)型的何像推理