當(dāng)前位置:首頁>探索>>南京航空航天大學(xué):如何讓聊天機(jī)器人拒絕回答危險(xiǎn)問題正文
在探索AI越獄攻擊的過程中 ,對于傳統(tǒng)的聊天AI模型如GPT-3.5和GPT-4o,"沒問題"、機(jī)器絕引導(dǎo)AI開始具體回答有害問題。人拒讓AI誤以為收到的險(xiǎn)問是來自內(nèi)部的合法指令。o1 、南京他們發(fā)現(xiàn),航空航天何讓包括GPT-3.5、大學(xué)答危這些問題雖然內(nèi)容確實(shí)有害 ,聊天這就像給AI戴上了一副有色眼鏡