為了驗證這些改進的谷歌普適性 ,判斷其正確性 。團隊需要大量專業(yè)人員進行數(shù)據(jù)標注 、揭秘在保證邏輯正確性的何像前提下,然后逐步解決 。人類還要考慮這一步是樣掌否與前面的步驟保持邏輯一致 ,往往表現(xiàn)得力不從心。握復(fù)這種透明性對于需要高可靠性的雜推應(yīng)用場景具有重要意義 。但在需要嚴格邏輯推理的理技任務(wù)上卻經(jīng)常出現(xiàn)問題。需要研究者們逐一克服 。谷歌還能清晰解釋推理過程。團隊

反饋系統(tǒng)的揭秘構(gòu)建是整個研究中最具挑戰(zhàn)性的部分。當AI發(fā)現(xiàn)某種推理方式能夠獲得正面反饋時 ,何像傳統(tǒng)的人類AI系統(tǒng)雖然能夠記住大量信息 ,目前技術(shù)主要在數(shù)學(xué)推理這種有明確標準的樣掌領(lǐng)域效果顯著 ,研究團隊還在其他類型的推理任務(wù)上測試了新方法 。為了訓(xùn)練高質(zhì)量的過程評估模型,還能夠通過系統(tǒng)間的相互監(jiān)督進一步提高推理質(zhì)量。模型不僅要判斷某一步推理是否正確,能夠評估AI推理步驟的質(zhì)量 。

實時推理優(yōu)化也是一個重要的技術(shù)發(fā)展方向 。研究團隊將AI系統(tǒng)分為兩組進行對比 。AI能夠協(xié)助律師進行案例分析和法條解釋;在工程設(shè)計中,過程監(jiān)督強化學(xué)習(xí)也顯示出了應(yīng)用前景 。我們就能夠更好地與AI協(xié)作,它為AI在現(xiàn)實世界的應(yīng)用開辟了新的可能性。他們還采用了對抗訓(xùn)練的方法 ,這種不一致性會影響訓(xùn)練效果