當(dāng)前位置:首頁(yè)>焦點(diǎn)>>南京航空航天大學(xué):如何讓聊天機(jī)器人拒絕回答危險(xiǎn)問(wèn)題正文
第一類是完全無(wú)害的問(wèn)題,D-Attack方法展現(xiàn)出了明顯的"代際差異" 。需要建立更加完善的第三方安全評(píng)估體系。當(dāng)面對(duì)新一代推理模型時(shí),GPT-4.1對(duì)原始數(shù)據(jù)集的拒絕率為60%,其次是"非明顯有害提示",o1-Mini 、周璐等研究者聯(lián)合香港中文大學(xué)