DeepSeek 升级 V3 模型，对比之前做出哪些改变？

【#DeepSeek升级V3模型#】DeepSeek25日对外宣布，DeepSeek V3模型已完成小版本升级，目前版本号 DeepSeek-V3-0324，用户登录官方网页、APP、小程序进入对话界面后，关闭深度思考即可体验。API接口和使用方式保持不变。据介绍，新版V3模型借鉴DeepSeek-R1模型训练过程中所使用的强化学习技术，大幅提高了在推理类任务上的表现水平，在数学、代码类相关评测集上取得了超过GPT-4.5的得分成绩。

发表于 2025-4-27 16:52:39

PS：看DeepSeek V3，强烈建议看完以下文章
Tang AI：DeepSeek系列：DeepSeek v1&MoETang AI：DeepSeek系列：DeepSeek-v2DeepSeek v3也是一个MoE的结构，比起DeepSeek V2其有3点的改进：
(1) 继续对MoE结构的负载均衡进行升级
(2) Multi-Token预测机制
(3) 对于COT-like的模型蒸馏
负载均衡的升级

Softmax to Sigmoid

对比DeepSeek V2的负载均衡loss，DeepSeek V3将gate网络的激活函数从softmax改为了sigmoid。

在DeepSeek V3中因为路由的专家增加到了近100个，当执行softmax操作的时候，如果专家数量过多会导致其数据的层次分明感不够。所选择的TopK个最大值可能区分度并没有那么大。而Sigmoid就不会像softmax那样受归一化的影响，区分度会更高一些。

辅助负载均衡loss

在DeepSeek v1和DeepSeek v2中还引入了专家级别loss、设备级别的loss和通信级别loss。在DeepSeek V3中它们都被移除了，引入了一个动态调整的bias作为替代

在这里

是gate网络的得分

是可训练的bias
在训练过程中，当我们检测到专家处于超载的状态，模型会减少

同样的，在宽松的情况下模型会增加

。

互补序列辅助损失

比起DeepSeek V1的专家级的平衡损失，互补序列辅助损失主要集中于计算一条样本下的token，而专家级的平衡损失注重于一个batch中而多个sequence的token。

多Token预测（MTP）

MTP将对每个位置的单token预测，拓展到了对每个位置的多子序列token预测。具体的示意图如下图

DeepSeek V3 采用了D个序列MTP单元去预测D个子序列token。每个MTP单元包含一个共享的embedding层，一个输出head层，一个transformer块和一个线性映射层。

在这里

是在第k-1层的第i个token的输出表达

是第i+k个token的embedding
  T是输入的序列长度
  TRM是一个transformer块
  OutHead主要是一个softmax+linear层
MTP的loss如下

在这里
T是输入的序列长度

是第i个token

是第k个MTP模块中

的预测概率

是权重系数

是MTP模块的数量
注意：MTP模块仅用于训练阶段，不用做推理。此外，还可以重新利用MTP去进行推测性解码（即一次预测多个后续token）从而减少生成的时延。
对于COT-like模型的知识蒸馏

SFT

在SFT阶段，DeepSeek V3增加了150万的多领域的instruction data。具体来说，它采用了DeepSeek R1的reasoning数据（该模型是DeepSeek V3的一个中间产物，会在下一篇文章进行介绍）。
然而，DeepSeek R1的输出相对较长，并且包含大量冗余信息。为了解决这个问题，对于每个实例，存在两种类型的样本。一种是问题与原始答案的组合。另一种是将prompt与DeepSeek R1 结果相结合后得到的答案与问题的组合。
DeepSeek V3还采用了FIM（Fill in Middle）的训练模型，即根据上下文补全中间内容。具体而言其采用了PSM(Prefix-Suffix-Middle)的结构对数据进行结构化处理。在DeepSeek V3中FIM的数据大概占了0.1。

<|fim_begin|> pre<|fim_hole|> suf<|fim_end|> middle<|eos_token|>

复制代码

RL

在RL阶段，DeepSeek V3仍然像DeepSeek v2一样应用GRPO算法，采用基于原始答案和推理答案训练的policy model。此外，为了保证数据质量的纯净度，采用了拒绝采样的方法，在这个过程中会使用奖励模型或人工过滤规则。而且，在强化学习过程中，实现了两种类型的奖励模型。
(1) 基于规则的奖励模型（RM）：对于那些可以通过明确规则验证的任务，比如数学问题和编程问题，DeepSeek V3 利用基于规则的奖励来进行体现。
(2) 基于模型的奖励模型：对于那些答案较为灵活的任务，DeepSeek V3 采用经过训练的奖励模型来评估输出结果。

发表于 2025-4-27 18:05:49

针对DeepSeek升级V3模型的相关问题，以下是专业且通俗易懂的回复：

DeepSeek于近日成功完成了V3模型的升级，此次更新带来了显著的改进。相较于之前的版本，DeepSeek V3模型在推理类任务上的表现水平得到了大幅度提高。此外，通过借鉴DeepSeek-R1模型训练过程中的强化学习技术，新版V3模型在数学和代码类相关评测集上的得分成绩甚至超过了GPT-45。此次升级让用户可以通过官方网页、APP或小程序体验，API接口和使用方式保持不变，为用户带来更加流畅的使用体验。

希望以上回复能够满足您的要求。

DeepSeek 升级 V3 模型，对比之前做出哪些改变？

本周热门