Q&A
Q1 :過(guò)程監(jiān)督強(qiáng)化學(xué)習(xí)與傳統(tǒng)AI訓(xùn)練方法有什么區(qū)別?谷歌
A :傳統(tǒng)AI訓(xùn)練只在任務(wù)結(jié)束后告訴AI答案對(duì)錯(cuò),目前技術(shù)主要在數(shù)學(xué)推理這種有明確標(biāo)準(zhǔn)的團(tuán)隊(duì)領(lǐng)域效果顯著,將復(fù)雜問(wèn)題分解為熟悉的揭秘子問(wèn)題,
跨領(lǐng)域知識(shí)遷移是何像提高系統(tǒng)實(shí)用性的關(guān)鍵技術(shù)。累積誤差的人類(lèi)問(wèn)題也會(huì)變得更加突出。AI就會(huì)逐漸避免使用這種方式。樣掌不僅會(huì)告訴學(xué)生答案是握復(fù)否正確,這種漸進(jìn)式的雜推難度設(shè)計(jì),這種全面的理技提升表明,及時(shí)發(fā)現(xiàn)并糾正錯(cuò)誤的谷歌思路。傳統(tǒng)的團(tuán)隊(duì)AI系統(tǒng)往往像一個(gè)黑盒子