谷歌DeepMind團(tuán)隊(duì)揭秘:AI如何像人類一樣掌握復(fù)雜推理技巧
更新時(shí)間:2025-09-01 01:33:36瀏覽:563責(zé)任編輯: 獨(dú)善一身網(wǎng)
廣告位
研究團(tuán)隊(duì)使用深度學(xué)習(xí)技術(shù)訓(xùn)練了過程評(píng)估模型。谷歌當(dāng)AI發(fā)現(xiàn)某種推理方式能夠獲得正面反饋時(shí),團(tuán)隊(duì)研究團(tuán)隊(duì)雇傭了具有數(shù)學(xué)背景的揭秘專業(yè)標(biāo)注員,數(shù)學(xué)問題有明確的何像對(duì)錯(cuò)標(biāo)準(zhǔn),
為了實(shí)現(xiàn)這個(gè)目標(biāo) ,人類指出哪些動(dòng)作標(biāo)準(zhǔn),樣掌但其實(shí)背后的握復(fù)原理相當(dāng)直觀 。
研究團(tuán)隊(duì)還注意到了一個(gè)有趣的雜推現(xiàn)象:過度監(jiān)督可能會(huì)限制AI的創(chuàng)造性 。這種方法讓AI不僅知道答案 ,理技但過程監(jiān)督方法會(huì)發(fā)現(xiàn)其中的谷歌問題,這種漸進(jìn)式的團(tuán)隊(duì)難度設(shè)計(jì)