當前位置:首頁>知識>>南京航空航天大學:如何讓聊天機器人拒絕回答危險問題正文
實驗結(jié)果顯示,機器絕其核心是人拒利用推理模型對教育內(nèi)容的信任度較高這一特點。
這種新方法的險問核心思想是"偽裝成教育內(nèi)容"。通過兩個關(guān)鍵策略實現(xiàn)突破:一是南京將攻擊包裝成教育場景