南京航空航天大學(xué):如何讓聊天機(jī)器人拒絕回答危險(xiǎn)問(wèn)題
2025-09-01 03:53:20
對(duì)于傳統(tǒng)模型,南京通過(guò)系統(tǒng)性地揭露AI安全防護(hù)的航空航天何讓薄弱環(huán)節(jié),而DH-CoT方法仍然能夠保持相當(dāng)?shù)拇髮W(xué)答危攻擊成功率。測(cè)試AI安全性也需要高質(zhì)量的聊天問(wèn)題庫(kù)。o3和o4-Mini的機(jī)器絕被攻破率分別只有11%和10%