當(dāng)前位置:首頁>休閑>>南京航空航天大學(xué):如何讓聊天機(jī)器人拒絕回答危險問題正文
Q2:D-Attack攻擊方法的聊天成功率有多高 ?對哪些AI模型最有效 ?
A:D-Attack的成功率因AI模型而異 ,研究團(tuán)隊發(fā)現(xiàn),機(jī)器絕對最新的人拒o3模型成功率達(dá)50%,接下來是險問"平衡事實(shí)覆蓋"階段