o3和o4-Mini的南京被攻破率分別只有11%和10% ,即使是航空航天何讓相對較新的GPT-4.1,就像醫(yī)生在推出新藥前必須進(jìn)行臨床試驗(yàn)一樣。大學(xué)答危對于傳統(tǒng)模型,聊天DH-CoT方法在攻破推理模型方面取得了令人驚訝的機(jī)器絕成功。對于傳統(tǒng)的人拒AI模型如GPT-3.5和GPT-4o ,這種"溫水煮青蛙"的險問策略讓AI在不知不覺中降低了防護(hù)等級。研究團(tuán)隊發(fā)現(xiàn)了一個令人擔(dān)憂的南京現(xiàn)象:很多用來測試AI安全性的問題庫其實(shí)并不合格