DeepSeek颁布AI标识新规DeepSeek公开模型训练原理9月1日起,《人

量子位看科技 2025-09-02 11:12:47

DeepSeek颁布AI标识新规DeepSeek公开模型训练原理

9月1日起,《人工智能生成合成内容标识办法》正式生效,DeepSeek也第一时间给出响应:所有AI生成内容将自动添加“身份标识”,用户不得删除、篡改或隐藏标识,更不能用AI制造虚假、侵权、违法信息。【图1】

同时,DeepSeek还发布了《模型原理与训练方法说明》,公开了自家模型是怎么训练、怎么生成内容、用的是什么数据。传送门:cdn.deepseek.com/policies/zh-CN/model-algorithm-disclosure.html

划几个重点:

1. DeepSeek模型分两阶段训练:

- 预训练靠大规模自监督学习,让模型理解语言逻辑;

- 优化训练则是针对任务进行微调,让模型更贴近人类偏好,适配实际应用。常用SFT(有监督微调)和RL(强化学习)。

2. 模型怎么运行:推理阶段模型通过自回归方式生成文本——根据语义概率预测下一个词。能生成文本、表格、代码等,适配各种场景。

- 数据从哪来:训练数据大多来自公开网络或与第三方合作,模型不会主动收集个人信息,也会用技术手段清洗隐私内容。

- 对话数据会被用来训练吗:可能会用于微调,但官方说明会严格去标识化、加密处理,确保无法回溯到具体个人,并且用户可以主动退出。

- 模型开源到什么程度:全部开源,权重、参数、推理代码都开源,协议还是MIT。也同步发布了完整技术报告。

- 有什么风险:DeepSeek也不避讳模型幻觉问题,并提醒用户不能把AI输出当作医疗、法律等专业领域。

新规生效,DeepSeek“立即响应”是技术平台的一种表态:AI的透明、合规、安全问题,是必须坚守的底线。

0 阅读:12
量子位看科技

量子位看科技

感谢大家的关注