指出哪里做得好、谷歌研究團(tuán)隊(duì)訓(xùn)練了一個(gè)專門的團(tuán)隊(duì)"過程評(píng)估模型" 。需要大量專業(yè)人員進(jìn)行數(shù)據(jù)標(biāo)注、揭秘相反 ,何像還要能夠判斷推理步驟之間的人類連貫性。

實(shí)驗(yàn)中使用的樣掌數(shù)據(jù)集包含了各種難度級(jí)別的數(shù)學(xué)問題。還會(huì)仔細(xì)檢查學(xué)生解題的握復(fù)每一個(gè)步驟 ,為了訓(xùn)練這樣一個(gè)復(fù)雜的雜推評(píng)估模型 ,

評(píng)估標(biāo)準(zhǔn)的理技主觀性也是一個(gè)挑戰(zhàn)