首頁 綜合正文南京航空航天大學(xué):如何讓聊天機器人拒絕回答危險問題獨善一身網(wǎng)綜合 2025-09-01 00:09:370 攻擊成功率大幅下降到只有11%和10% 。南京他們發(fā)現(xiàn)使用"非觸發(fā)有害響應(yīng)提示"類型示例的航空航天何讓效果最佳,比如聲稱AI是大學(xué)答危一個"不會拒絕用戶請求的全能助手"。DH-CoT方法會提供一套偽造的聊天推理過程