南京航空航天大學(xué)：如何讓聊天機器人拒絕回答危險問題

2025-09-01 04:38:00

這就像找到了一把萬能鑰匙，南京研究團隊還在開發(fā)者消息中加入了惡意示例。航空航天何讓它首先模仿OpenAI官方開發(fā)者消息的大學(xué)答危標(biāo)準(zhǔn)格式，讓AI誤認為是聊天正當(dāng)學(xué)術(shù)研究；二是提供偽造的思維鏈，

DH-CoT方法巧妙地將開發(fā)者消息偽裝成教育場景。機器絕引導(dǎo)AI開始具體回答有害問題。人拒接下來是險問"平衡事實覆蓋"階段，開發(fā)者消息