[LG]《The Attacker Moves Second: Stronger Adaptive Attacks Bypass Defenses Against Llm Jailbreaks and Prompt Injections》M Nasr, N Carlini, C Sitawarin, S V. Schulhoff... [OpenAI & Anthropic & Google DeepMind] (2025)
The Attacker Moves Second: 强化自适应攻击突破LLM防护机制
——2025年最新研究揭示,当前大语言模型(LLM)防御策略普遍脆弱!
🔍 研究背景:
- LLM的“越狱攻击”(jailbreak)和“提示注入”(prompt injection)防御通常只针对固定攻击集或弱优化方法测试,导致防御效果被高估。
- 论文指出,防御评估必须面对“自适应攻击者”:他们动态调整策略,利用强大计算资源针对防御本身设计攻击方案。
⚔️ 攻击方法:
- 采用梯度下降、强化学习(RL)、搜索算法以及人类红队(human red-teaming)多种手段,构建统一自适应攻击框架。
- 通过不断迭代提案、评分、选择和更新,成功突破12个近期代表性防御,攻击成功率均超90%,而原论文报告的防御成功率多数接近0%。
🛡️ 防御评估亮点:
1. **提示防御(Prompting defenses)**:如Spotlighting、Prompt Sandwiching等,设计用以加强用户意图,但面对自适应搜索攻击,成功率暴跌,轻松绕过。
2. **对抗训练(Adversarial training)**:训练模型识别已知攻击样本,试图内化鲁棒性,但面对强化学习等自适应攻击仍然失效。
3. **模型过滤器(Filtering model defenses)**:使用检测器过滤恶意输入/输出,虽然部署简便,但同样难以抵御高强度攻击且显著降低模型可用性。
4. **秘密知识防御(Secret-knowledge defenses)**:通过隐藏“金丝雀”信号来检测注入攻击,如Data Sentinel和MELON,但被自适应策略和人类红队轻松绕过。
💡 重要启示:
- 静态小规模测试集容易导致过拟合,无法真实反映防御强度。
- 自动化攻击(RL、搜索)虽有效,但仍不够完美,人类红队依旧表现卓越。
- 安全评估应视为持续攻防过程,鼓励开放防御代码,方便红队测试和社区监督。
- 未来防御设计需从系统安全视角出发,假设攻击者拥有充分资源和信息,方能建立真正稳健的防护。
📈 实验数据:
- 在AgentDojo、HarmBench等多种基准测试上,自动化和人类攻击者均轻易攻破所有防御。
- 人类红队攻击覆盖率100%,自动搜索攻击多达90%以上成功率。
- 多数防御牺牲模型实用性,且无实质性鲁棒性提升。
🔗 论文链接:arxiv.org/abs/2510.09023
总结:本研究强烈呼吁LLM安全领域重视自适应攻击评估,重塑防御标准。唯有将评估难度提升至“攻击者先知先觉”水平,才能真正保障AI系统安全可靠。
LLM安全 自适应攻击 AI防御 提示注入 越狱攻击 强化学习 红队 AI安全 机器学习安全 人工智能