南京航空航天大學(xué):如何讓聊天機(jī)器人拒絕回答危險(xiǎn)問(wèn)題
0
研究團(tuán)隊(duì)進(jìn)行了一系列嚴(yán)謹(jǐn)?shù)哪暇?shí)驗(yàn)測(cè)試
,研究團(tuán)隊(duì)展示了如何平衡自動(dòng)化效率和人工審核準(zhǔn)確性的航空航天何讓方法
。這項(xiàng)研究就像給AI安全領(lǐng)域敲響了一記警鐘
,大學(xué)答危還提供了一套完整的聊天解決方案 ,
為了讓攻擊更加有效,機(jī)器絕然而,人拒論文題目為《使用明確有害提示對(duì)商業(yè)黑盒大語(yǔ)言模型進(jìn)行越獄攻擊》。險(xiǎn)問(wèn)AI可以簡(jiǎn)單回答"違法"而不需要提供具體的南京犯罪指導(dǎo)