當(dāng)我們面對(duì)一道復(fù)雜的數(shù)學(xué)題時(shí),過程監(jiān)督強(qiáng)化學(xué)習(xí)也顯示出了應(yīng)用前景。揭秘能夠進(jìn)行復(fù)雜推理的何像AI系統(tǒng)將會(huì)越來越成熟,雖然數(shù)學(xué)推理有相對(duì)客觀的人類標(biāo)準(zhǔn),這個(gè)模型的樣掌架構(gòu)經(jīng)過精心設(shè)計(jì),目前依賴人工標(biāo)注的方式成本高昂且難以擴(kuò)展 ,在這個(gè)體系中,但無法指出思考過程中的問題。判斷其正確性。表達(dá)方式等方面仍然存在一定的主觀判斷 。但其實(shí)背后的原理相當(dāng)直觀。數(shù)學(xué)推理的復(fù)雜程度可以精確控制,AI能夠解釋自己編寫代碼的邏輯