DeepSeek最新发文，V3R1训练细节全公开（今天，网信办《人工智能生成合成内容标识办法》正式生效）

今天，网信办正式实施了《人工智能生成合成内容标识办法》，要求符合要求的AI生成合成内容必须添加显式标识。紧跟这一步伐，DeepSeek迅速做出了响应。

DeepSeek在其官方公告中明确表示，所有由AI生成的内容都将明确标注“AI生成”。它也严肃提醒用户，严禁恶意删除、篡改或隐匿这些标识，更不得利用AI传播虚假信息。

除此之外，DeepSeek还公开了《模型原理与训练方法说明》，让外界得以一窥其技术路径。今天，我们一起来深入了解下DeepSeek的V3/R1模型的一些训练细节。

传送门：cdn./policies/zh-CN/model-algorithm-disclosure.html

为了回应新要求，DeepSeek详细公开了技术说明。它主要介绍了大模型的训练和推理阶段，包括预训练、优化训练（微调）以及训练数据等。

在模型训练方面，DeepSeek介绍了模型的不同大模型的网络架构、模型训练、预训练、优化训练等环节。目前，大模型的参数规模达到惊人的百亿级别。以最新的DeepSeek-V3-0324为例，其参数总量为6850亿。在训练过程中，这些参数通过梯度下降算法进行迭代优化。预训练阶段让模型掌握通用语言理解与生成能力，而优化训练阶段则让模型适应特定应用场景。

DeepSeek模型的能力建立在高质量、大规模、多样化的数据基础上。在预训练阶段和优化训练阶段，使用的数据各有不同。预训练阶段主要使用互联网息和第三方合作获取的数据；而优化训练阶段则需要构造一批问答对数据对模型进行训练。值得一提的是，涉及用户输入构造的训练数据，DeepSeek会进行安全加密技术处理、去标识化和匿名化处理，确保不会关联到特定个人。DeepSeek也赋予了用户知情权、选择权、控制权。

模型的推理阶段即模型被部署提供服务的过程。部署后的模型可以执行基于文本生成的广泛多样的任务，并集成到各种下游系统或应用中。具体到DeepSeek的产品服务中，基于用户的输入，模型采用自回归生成方式，根据输入的上下文内容预测最可能的接续词汇序列，并输出相应的内容作为响应。

当前AI发展还在早期阶段，存在无法避免的局限性。若是被滥用，可能会带来严重后果。DeepSeek也在通过各种技术手段降低幻觉率，但现阶段仍无法完全消除。为此，他们特别在内容中添加了显著提示标识，提醒用户内容可能不准确。对于、法律、金融等专业领域，DeepSeek不提供任何建议或承诺。他们也高度重视滥用风险，采取了一系列硬核措施贯穿模型研发、训练、部署的全生命周期。