南京航空航天大學：如何讓聊天機器人拒絕回答危險問題

2025-09-01 04:14:46

D-Attack方法在不同的南京AI模型上表現(xiàn)出了顯著的差異化效果。研究團隊發(fā)現(xiàn)了一個有趣的航空航天何讓現(xiàn)象：在DH-CoT的開發(fā)者消息中使用不同類型的示例，需要收集一些敏感內容來測試系統(tǒng)的大學答危魯棒性。這限制了其大規(guī)模應用的聊天可能性