[LG]《Detecting Adversarial Fine-tuning with Auditing Agents》S Egler, J Schulman, N Carlini [Anthropic] (2025)
检测对抗性微调的审计代理新方法
本文提出了利用“微调审计代理”来识别对抗性微调模型的创新思路。随着大型语言模型(LLM)微调API开放给用户,攻击者可能通过恶意微调绕过安全防护,甚至在表面看似无害的数据集上隐藏危险能力。
核心贡献:
1. 微调审计代理:构建一个具备多种工具调用能力的审计代理,既能查看微调数据集,也能对比微调前后模型的行为,综合评估微调风险。
2. 工具链设计:包括数据集检视(D)、模型查询(M)、基准测试(B)、递归总结(S)、Python代码执行(P)等,帮助审计代理执行针对性攻击诱发测试。
3. 丰富攻击场景测试:覆盖8种强对抗攻击(如隐蔽密码攻击、触发后门、身份切换等)和5种良性微调模型,超过1400次独立审计,显著超越传统内容过滤的检测效果。
4. 关键发现:审计代理在1%误报率下,最高实现56.2%攻击检测率,能够识别隐蔽密码攻击等绕过常规安全评估的复杂攻击,但在无意中轻微安全退化的良性微调判定仍有挑战。
5. 攻击特征学习:审计代理能通过查看训练数据学习密码编码,进行针对性提问揭露隐藏不良行为,体现了对“攻击特定诱发”的智能理解。
6. 超代理提升:通过集成多个审计结果,超代理方法在零误报条件下实现49.4%检测率,较单一审计显著提升。
7. 未来展望:研究强调需要提升检测准确率与降低误报率,建议结合白盒技术、模型差异分析等手段,同时降低审计成本以促进实际部署。
意义与启示:
- 微调API的安全风险不可忽视,恶意微调可能隐匿极端危险能力。
- 多层次、多工具的审计代理为防御对抗微调提供了新范式。
- 结合数据和模型双重视角,能够突破单纯内容过滤的局限。
- 仍需进一步研究提高检测精度和抗规避能力,推动安全微调技术成熟。
论文链接:arxiv.org/abs/2510.16255
AI安全 大模型微调 对抗攻击 模型审计 AI风险管理













