HTK新闻网

大模型遗忘机制研究研究背景与问题 大语言模型(LLMs)存在隐私风险,训练中可

大模型遗忘机制研究

研究背景与问题

大语言模型(LLMs)存在隐私风险,训练中可能记忆敏感信息。机器遗忘(Machine Unlearning)技术旨在选择性抹除特定知识,但需区分“可逆性遗忘”与“不可逆遗忘”。

核心发现

1. 结构变化决定遗忘性质:

• 可逆遗忘:仅行为表现下降,内部结构未变(如PCA相似性高)。

• 不可逆遗忘:多层协同扰动导致结构漂移(PCA方向旋转、Fisher矩阵破坏)。

2. 诊断工具与实验验证:

• 工具:PCA相似性、CKA分析、Fisher信息矩阵。

• 实验:单次遗忘多可恢复,持续遗忘(如100条请求)易引发崩溃。

3. 方法对比:

• GA/RLabel破坏性强,GA+KL和NPO稳定性更高。

4. 潜在益处:

• Relearning后可能提升模型性能,暗示遗忘具正则化效果。

应用与展望

结构诊断工具可定位破坏位置,支持设计可控、安全的遗忘机制。论文与代码已开源,推动技术发展。