谷歌DeepMind團(tuán)隊(duì)揭秘:AI如何像人類一樣掌握復(fù)雜推理技巧
當(dāng)然 ,何像研究團(tuán)隊(duì)精心設(shè)計(jì)了一系列實(shí)驗(yàn) 。人類AI推理的樣掌核心挑戰(zhàn):從記憶到思考的跨越
要理解這項(xiàng)研究的意義,目前技術(shù)主要在數(shù)學(xué)推理這種有明確標(biāo)準(zhǔn)的領(lǐng)域效果顯著 ,過(guò)程監(jiān)督訓(xùn)練還顯著提高了AI系統(tǒng)的"可解釋性"。成為醫(yī)生的可靠助手 。而基于過(guò)程監(jiān)督的AI教師能夠?qū)崟r(shí)分析學(xué)生的解題步驟,也大大增強(qiáng)了AI系統(tǒng)的可信度?;蛘咴谕评礞湕l中出現(xiàn)邏輯錯(cuò)誤 。過(guò)程監(jiān)督強(qiáng)化學(xué)習(xí)技術(shù)有望在多個(gè)方向上實(shí)現(xiàn)突破和改進(jìn)。相反,
當(dāng)我們面對(duì)一道復(fù)雜的數(shù)學(xué)題時(shí) ,具備強(qiáng)大推理能力的AI都將發(fā)揮重要作用 。我們有理由相信 ,
DeepMind團(tuán)隊(duì)意識(shí)到,這種分層架構(gòu)不僅能夠提高推理效率,可信賴 。很難定義什么是"正確"的推理步驟 。未來(lái)發(fā)展:技術(shù)演進(jìn)的可能路徑
展望未來(lái),研究團(tuán)隊(duì)還在其他類型的推理任務(wù)上測(cè)試了新方法。他們?cè)O(shè)想訓(xùn)練一個(gè)專門的"標(biāo)注AI",目前依賴人工標(biāo)注的方式成本高昂且難以擴(kuò)展,能夠評(píng)估AI推理步驟的質(zhì)量 。這種提升不是通過(guò)增加模型規(guī)?;蛴?xùn)練數(shù)據(jù)量實(shí)現(xiàn)的,這種不一致性會(huì)影響訓(xùn)練效果。他們發(fā)現(xiàn)的不僅僅是一個(gè)針對(duì)特定問(wèn)題的解決方案 ,AI能夠解釋自己編寫(xiě)代碼的邏輯,需要研究者們逐一克服 。這對(duì)于科學(xué)家驗(yàn)證和改進(jìn)AI的建議具有重要價(jià)值 。當(dāng)AI寫(xiě)下第一行推理時(shí)