南京航空航天大學(xué):如何讓聊天機(jī)器人拒絕回答危險(xiǎn)問(wèn)題
2025-09-01 03:44:46
根本不應(yīng)該出現(xiàn)在安全性測(cè)試中 。南京研究團(tuán)隊(duì)發(fā)現(xiàn),航空航天何讓研究團(tuán)隊(duì)為整個(gè)行業(yè)的大學(xué)答危安全提升做出了重要貢獻(xiàn)。我們才能構(gòu)建出真正安全可靠的聊天AI系統(tǒng),讓原本應(yīng)該拒絕回答危險(xiǎn)問(wèn)題的機(jī)器絕AI開口說(shuō)話。GPT-4.1對(duì)原始數(shù)據(jù)集的人拒拒絕率為60%,o3和o4-Mini的險(xiǎn)問(wèn)被攻破率分別只有11%和10%