大模型遗忘机制研究研究背景与问题大语言模型（LLMs）存在隐私风险，训练中可

2025-06-01 22:43:08 春蕴评趣事社会

大模型遗忘机制研究

研究背景与问题

大语言模型（LLMs）存在隐私风险，训练中可能记忆敏感信息。机器遗忘（Machine Unlearning）技术旨在选择性抹除特定知识，但需区分“可逆性遗忘”与“不可逆遗忘”。

核心发现

1. 结构变化决定遗忘性质：

• 可逆遗忘：仅行为表现下降，内部结构未变（如PCA相似性高）。

• 不可逆遗忘：多层协同扰动导致结构漂移（PCA方向旋转、Fisher矩阵破坏）。

2. 诊断工具与实验验证：

• 工具：PCA相似性、CKA分析、Fisher信息矩阵。

• 实验：单次遗忘多可恢复，持续遗忘（如100条请求）易引发崩溃。

3. 方法对比：

• GA/RLabel破坏性强，GA+KL和NPO稳定性更高。

4. 潜在益处：

• Relearning后可能提升模型性能，暗示遗忘具正则化效果。

应用与展望

结构诊断工具可定位破坏位置，支持设计可控、安全的遗忘机制。论文与代码已开源，推动技术发展。

阅读：0 点赞：0

猜你喜欢

天问二号露出真面目，“圆形柔性太阳翼”实拍照出来了，别看只有一个伞状的太阳翼。

2025-06-06 奥斯卡乐乐

标签：天问二号航天员彗星

这下燃尽了！你有没有好奇过，当我们完成高度集中注意力的任务时，大脑到底消耗了多少

2025-06-06 量子位

标签：神经元

人类是如何知道地球有45亿年？1953年的一天，美国地球化学家克莱尔·帕特森正

2025-05-26 墨香书卷传千古

标签：陨石科学家

挖到考古界“未解之谜”了！宁夏石板沟的青石板简直成精了！1980年被发现到现在，

2025-06-03 辛皓淼吖

标签：宁夏

中国实验室最近造了个"人造太阳"，温度比太阳核心还高，连外国团队都在买咱们的技术

2025-06-07 水共长鸣

标签：国际热核聚变实验堆等离子体万安培

突然想起威说过的一句话：DNA算个鸟。我的脑海中突然闪过一个奇怪的念头。倘若，是

2025-06-07 上进的百灵鸟

怀孕母鼠缺了铁，鼠鼠直接就一整个大变性了？《自然》杂志发表的一项最新研究可能会

2025-06-06 量子位

标签：基因染色体自然

HTK新闻网

大模型遗忘机制研究研究背景与问题大语言模型（LLMs）存在隐私风险，训练中可

热门分类

大模型遗忘机制研究研究背景与问题 大语言模型（LLMs）存在隐私风险，训练中可

猜你喜欢

天问二号露出真面目，“圆形柔性太阳翼”实拍照出来了，别看只有一个伞状的太阳翼。

这下燃尽了！你有没有好奇过，当我们完成高度集中注意力的任务时，大脑到底消耗了多少

人类是如何知道地球有45亿年？1953年的一天，美国地球化学家克莱尔·帕特森正

挖到考古界“未解之谜”了！宁夏石板沟的青石板简直成精了！1980年被发现到现在，

中国实验室最近造了个"人造太阳"，温度比太阳核心还高，连外国团队都在买咱们的技术

突然想起威说过的一句话：DNA算个鸟。我的脑海中突然闪过一个奇怪的念头。倘若，是

怀孕母鼠缺了铁，鼠鼠直接就一整个大变性了？《自然》杂志发表的一项最新研究可能会

热门分类

大模型遗忘机制研究研究背景与问题大语言模型（LLMs）存在隐私风险，训练中可