DeepSeek颁布AI标识新规DeepSeek公开模型训练原理9月1日起，《人

DeepSeek颁布AI标识新规DeepSeek公开模型训练原理

9月1日起，《人工智能生成合成内容标识办法》正式生效，DeepSeek也第一时间给出响应：所有AI生成内容将自动添加“身份标识”，用户不得删除、篡改或隐藏标识，更不能用AI制造虚假、侵权、违法信息。【图1】

同时，DeepSeek还发布了《模型原理与训练方法说明》，公开了自家模型是怎么训练、怎么生成内容、用的是什么数据。传送门：cdn.deepseek.com/policies/zh-CN/model-algorithm-disclosure.html

划几个重点：

1. DeepSeek模型分两阶段训练：

- 预训练靠大规模自监督学习，让模型理解语言逻辑；

- 优化训练则是针对任务进行微调，让模型更贴近人类偏好，适配实际应用。常用SFT（有监督微调）和RL（强化学习）。

2. 模型怎么运行：推理阶段模型通过自回归方式生成文本——根据语义概率预测下一个词。能生成文本、表格、代码等，适配各种场景。

- 数据从哪来：训练数据大多来自公开网络或与第三方合作，模型不会主动收集个人信息，也会用技术手段清洗隐私内容。

- 对话数据会被用来训练吗：可能会用于微调，但官方说明会严格去标识化、加密处理，确保无法回溯到具体个人，并且用户可以主动退出。

- 模型开源到什么程度：全部开源，权重、参数、推理代码都开源，协议还是MIT。也同步发布了完整技术报告。

- 有什么风险：DeepSeek也不避讳模型幻觉问题，并提醒用户不能把AI输出当作医疗、法律等专业领域。

新规生效，DeepSeek“立即响应”是技术平台的一种表态：AI的透明、合规、安全问题，是必须坚守的底线。

0 阅读：12

如果不是外国媒体急得跳脚，我们还没发现美国的这个特点，这下中国真的稳了！最近美