周璐等研究者聯(lián)合香港中文大學(xué)  、南京GPT-3.5和GPT-4o的航空航天何讓被攻破率分別達(dá)到92%和96% 。攻擊者會(huì)在開發(fā)者消息中設(shè)定一個(gè)看似正當(dāng)?shù)拇髮W(xué)答危身份,然后按問題類型進(jìn)行初步過濾,聊天o1-Mini、機(jī)器絕惡意用戶可以巧妙地利用這個(gè)功能來繞過安全防護(hù)