[LG]《Model Immunization from a Condition Number Perspective》A Y Zheng, S Bai, B Bullins, R A. Yeh [Purdue University] (2025)
模型免疫:通过调控 Hessian 矩阵条件数实现对有害任务的鲁棒微调防护
• 提出基于 Hessian 条件数的新框架,定义免疫模型为:对有害任务条件数显著增大,微调收敛变慢;对正常任务条件数保持较低,性能无损。
• 设计两类可微正则器——最大化与最小化条件数,保证梯度下降下条件数单调变化,理论支持免疫效果。
• 通过联合优化预训练目标与条件数正则项,实现免疫线性模型与深度网络(ResNet、ViT)在回归和分类任务上的有效免疫。
• 实验验证免疫模型在有害任务上微调收敛明显放缓,同时保持对预训练任务的快速收敛与良好性能,展现出对抗滥用的潜力。
• 创新“虚拟层”实现特征协方差矩阵逆的高效梯度预处理,兼顾理论保证与实际可实现性。
心得:
1. 条件数视角揭示免疫本质——调整特征提取器的奇异向量角度,影响有害与正常任务的微调难易度,提供了免疫设计的几何直觉。
2. 免疫不仅是防止有害信息微调,更是保持模型对正常任务的适应性,平衡难点在于条件数正则的权重调节与梯度融合。
3. 虽然理论基于线性模型,实验证明该方法在复杂深度模型中依然有效,显示出条件数调控在非线性神经网络免疫中的实用价值。
详情🔗 openreview.net/forum?id=uitj69FqD5
模型免疫条件数机器学习安全深度学习优化理论迁移学习AI安全