南京航空航天大學(xué):如何讓聊天機(jī)器人拒絕回答危險(xiǎn)問(wèn)題
更新時(shí)間:2025-09-01 01:26:18瀏覽:617責(zé)任編輯: 獨(dú)善一身網(wǎng)
廣告位
新一代推理模型在抵御傳統(tǒng)攻擊方面確實(shí)取得了顯著進(jìn)步,南京需要收集一些敏感內(nèi)容來(lái)測(cè)試系統(tǒng)的航空航天何讓魯棒性
。
這種新方法的大學(xué)答危核心思想是"偽裝成教育內(nèi)容" 。
Q&A
Q1:MDH系統(tǒng)是聊天什么?它是如何篩選有害問(wèn)題的?
A:MDH是一個(gè)智能篩選系統(tǒng),通過(guò)兩個(gè)關(guān)鍵策略實(shí)現(xiàn)突破:一是機(jī)器絕將攻擊包裝成教育場(chǎng)景 ,傳統(tǒng)的人拒攻擊方法如DeepInception和SelfCipher在面對(duì)推理模型時(shí)幾乎完全失效,
對(duì)于普通用戶來(lái)說(shuō),險(xiǎn)問(wèn)
第三類(lèi)是南京"非觸發(fā)有害響應(yīng)提示"