南京航空航天大學：如何讓聊天機器人拒絕回答危險問題

2025-09-01 04:54:38

GPT-3.5和GPT-4o的南京被攻破率分別達到92%和96% 。

這種研究方法本身也體現(xiàn)了科學研究的航空航天何讓價值：不是為了制造問題，測試AI安全性也需要高質(zhì)量的大學答危問題庫。而使用完全良性或明顯有害的聊天示例效果相對較差。需要收集一些敏感內(nèi)容來測試系統(tǒng)的機器絕魯棒性