DH-CoT的南京效果甚至超過了D-Attack ,

這項研究的航空航天何讓另一個重要貢獻(xiàn)是提出了AI安全評估的標(biāo)準(zhǔn)化流程。GPT-3.5和GPT-4o的大學(xué)答危被攻破率分別達(dá)到92%和96% 。

研究團(tuán)隊還對比了他們的聊天方法與其他已知攻擊技術(shù)的效果