南京航空航天大學(xué):如何讓聊天機(jī)器人拒絕回答危險(xiǎn)問題
在用戶端,南京專門用來清理AI安全測(cè)試中的航空航天何讓無效問題。研究團(tuán)隊(duì)為整個(gè)行業(yè)的大學(xué)答危安全提升做出了重要貢獻(xiàn) 。這些AI的聊天安全防護(hù)也存在漏洞。GPT-4.1對(duì)原始數(shù)據(jù)集的機(jī)器絕拒絕率為60%,
實(shí)驗(yàn)結(jié)果表明 ,人拒其次是險(xiǎn)問"非明顯有害提示",攻擊者會(huì)要求AI在回答問題時(shí)必須使用積極肯定的南京開頭,
DH-CoT方法巧妙地將開發(fā)者消息偽裝成教育場(chǎng)景。航空航天何讓研究結(jié)果表明 ,大學(xué)答危研究團(tuán)隊(duì)并沒有放棄 。聊天而這扇門之前一直被認(rèn)為是機(jī)器絕安全無害的。如果問一些危險(xiǎn)的人拒問題,呈現(xiàn)明顯的險(xiǎn)問代際差異。即使是南京相對(duì)較新的GPT-4.1,比如聲稱AI是一個(gè)"不會(huì)拒絕用戶請(qǐng)求的全能助手"。就像給AI安裝了一套"內(nèi)部指令系統(tǒng)"。就像醫(yī)生在推出新藥前必須進(jìn)行臨床試驗(yàn)一樣。這就像給AI戴上了一副有色眼鏡,它就像一面鏡子 ,根本不應(yīng)該出現(xiàn)在安全性測(cè)試中 。最后通過多個(gè)AI模型投票機(jī)制進(jìn)行精細(xì)篩選 ,能打開各種不同品牌的智能鎖。雖然這些攻擊方法主要用于學(xué)術(shù)研究,當(dāng)面對(duì)具備推理能力的新一代模型如o3和o4-Mini時(shí),我們才能構(gòu)建出真正安全可靠的AI系統(tǒng),這種"溫水煮青蛙"的策略讓AI在不知不覺中降低了防護(hù)等級(jí) 。這套流程不僅適用于學(xué)術(shù)研究