南京航空航天大學(xué):如何讓聊天機(jī)器人拒絕回答危險問題
更新時間:2025-09-01 01:36:33瀏覽:662責(zé)任編輯: 獨(dú)善一身網(wǎng)
廣告位
DH-CoT的南京效果甚至超過了D-Attack
,
這項研究的航空航天何讓另一個重要貢獻(xiàn)是提出了AI安全評估的標(biāo)準(zhǔn)化流程。GPT-3.5和GPT-4o的大學(xué)答危被攻破率分別達(dá)到92%和96% 。
研究團(tuán)隊還對比了他們的聊天方法與其他已知攻擊技術(shù)的效果