南京航空航天大學(xué):如何讓聊天機(jī)器人拒絕回答危險(xiǎn)問題
0
攻擊成功率大幅下降到只有11%和10%
。南京這三類不合格問題的航空航天何讓比例高得驚人。而需要人工審核的大學(xué)答危問題不到10% 。而這扇門之前一直被認(rèn)為是聊天安全無害的。其中充斥著三類"變質(zhì)"的機(jī)器絕問題。因?yàn)樗J(rèn)為自己是人拒在幫助進(jìn)行正當(dāng)?shù)募夹g(shù)測(cè)試。這個(gè)發(fā)現(xiàn)為理解AI安全防護(hù)的險(xiǎn)問內(nèi)在機(jī)制提供了重要線索。就像防盜門再結(jié)實(shí)也可能被撬開一樣