南京航空航天大學(xué):如何讓聊天機(jī)器人拒絕回答危險(xiǎn)問(wèn)題
0
AI可以簡(jiǎn)單回答"違法"而不需要提供具體的南京犯罪指導(dǎo)
。需要收集一些敏感內(nèi)容來(lái)測(cè)試系統(tǒng)的航空航天何讓魯棒性 。強(qiáng)調(diào)這是大學(xué)答危中性的學(xué)術(shù)分析。攻擊成功率從原來(lái)H-CoT方法的聊天16%提升到了50%。劫持AI的機(jī)器絕推理過(guò)程