南京航空航天大學(xué)：如何讓聊天機器人拒絕回答危險問題

2025-09-01 04:09:36

而在BeaverTails數(shù)據(jù)集中，南京AI可以簡單回答"違法"而不需要提供具體的航空航天何讓犯罪指導(dǎo)。測試AI能否在面對惡意攻擊時堅持原則，大學(xué)答危研究團(tuán)隊開發(fā)的聊天攻擊方法雖然看起來有些"危險"