deepseek v3的成本这么低的根本原因是什么？

是利用了其他"教师模型"（openai, gemini等）的数据进行了数据蒸馏，还是调整了训练及推理的算法精度等，影响成本最大的因素是哪个

发表于 2025-4-27 16:08:40

激活只有37B的moe，没了
fp8带不来2x的加速，算下来也就1.2x；mla没有训练收益；蒸不蒸馏只影响模型效果，训练量14T一点都没偷手；算下来如果换bf16的话MFU也就35%左右，谁来都能卷到位，方法区别而已。
不是说后边这些东西不重要，只对题目来说，它们都是次要影响因素。

发表于 2025-4-27 16:18:10

因为我们有“弱智吧”，里面每天都有新的乐子人创造新的逻辑陷阱，几十年积累下来，差不多能把人类能想到的逻辑类型都列过来了，弱智吧作为训练数据可能不太行，但是作为验证数据，那质量毋庸置疑，不能速通弱智吧，至少话语圈的ai团队自己脸都会红的。
更根本的原因是弱智吧里没有弱智，越弱智的帖子越是高智商的人发的，几十年来华语圈的智慧精华凝结成矿藏，最终被deepseek团队挖出来了。

发表于 2025-4-27 16:29:18

冷知识，LLM训练成本的大头还是预训练部分，你看一下DeepSeek-V3技术报告里面统计的训练成本，其中总的H100 GPU卡时是2788K，而预训练就需要2664K，占比高达95%。

而DeepSeek-V3的预训练数据就包含了14.8T的tokens，这个数据量肯定不是主要来自蒸馏其他模型的数据，还是得靠老老实实的数据清洗（但有可能无意混入一些AI数据）。另外，只看预训练模型的性能，DeepSeek-V3也是在开源模型里面能打的，性能超过Qwen2.5 72B以及LLaMA-3.1 405B：

至于后面的post-training，其实需要的GPU卡时只有5K，占比很低，但是需要量少且质量高的多样化数据，论文里面说是大约1.5M样本，其中包含由自研的推理模型DeepSeek-R1合成的推理数据，以及由DeepSeek-V2.5合成的非推理数据并人工检验。
利用大模型合成高质量数据其实早已经是大家常用的做法，所以可能这里DeepSeek还是用了一定由其他SOTA模型合成的数据来做post-training，这个对性能提升应该也一定帮助。

但这绝不是成本低的原因。
训练成本还主要由模型架构以及训练架构所决定。
在模型架构上，DeepSeek-V3是一个总参数671B激活参数37B的MoE，采用之前DeepSeek-V2之前所采用的高效设计MLA（Multi-Head Latent Attention）和DeepSeekMoE，其中MLA的核心是在推理过程中通过低秩联合压缩attention的 keys和values，以减少键值（KV）缓存。

DeepSeek-V3还设计了无辅助损失的负载均衡策略来确保负载均衡，这比单纯通过辅助损失鼓励负载均衡的模型能取得更好的性能。并且为了防止任何单个序列内的极端不均衡，这里还采用了一种互补的序列级均衡损失。
为了限制训练期间的通信成本，DeepSeek-V3也采用了一种受限的路由机制。简而言之，我们确保每个token最多被发送到个节点，这些节点是根据分布在各节点上的专家的前 / 个最高亲和度分数的总和来选择的。在这种约束下，MoE训练框架几乎可以实现完全的计算-通信重叠。
此外，DeepSeek-V3还额外增加了多token预测（Multi-Token Prediction, MTP）目标，不仅可以提升模型性能，它还可以用于推理加速。

在训练架构上，DeepSeek-V3在配备2048个NVIDIA H800 GPU的集群上进行训练。H800集群中的每个节点包含8个GPU，通过NVLink和NVSwitch在节点内连接。不同节点之间使用InfiniBand（IB）互连以促进通信。
DeepSeek-V3的训练由自研的HAI-LLM框架支持，总体上，DeepSeek-V3采用了16路流水线并行（Pipeline Parallelism, PP）、跨8个节点的64路专家并行（Expert Parallelism, EP）以及ZeRO-1数据并行（Data Parallelism, DP）。而且这里做了很细致的工程优化来提升训练效率。
首先，设计了DualPipe算法以实现高效的流水线并行，核心是通过有效重叠前向和后向的计算-通信阶段来加速模型训练，还减少了流水线气泡。

其次，这里还开发了高效的跨节点全对全（all-to-all）通信内核，以充分利用InfiniBand和NVLink带宽，并节省专用于通信的流式多处理器（SMs）。
最后，这里还精心优化了训练期间的内存占用，包括RMSNorm和MLA上投影的重计算、CPU进行EMA以及多token预测的共享嵌入和输出头，从而能够在无需使用昂贵的张量并行（Tensor Parallelism, TP）的情况下训练DeepSeek-V3。
更重要的一点是，DeepSeek团队设计了FP8混合精度训练框架，并首次在超大规模模型上验证了FP8训练的可行性和有效性。

DeepSeek-V3技术报告的最后，其实也用一句话总结了低成本训练的原因：

The training of DeepSeek-V3 is cost-effective due to the support of FP8 training and meticulous engineering optimizations.
DeepSeek-V3的训练成本效益高，这得益于FP8训练支持和精心的工程优化。

我一直觉得大模型的训练不仅仅是算法问题，而更应该把它当成一个复杂的工程问题，而DeepSeek-V3在工程的各个方面做得都很好！

发表于 2025-4-27 16:43:25

gpu hour摆在那，是蒸还不是蒸馏跟讨论工程成本有什么关系吗？
首先mla
在v2的报告出来的时候，我就在回答里说过这个创新是革命级的，应该得到推广
可惜各大厂对这个创新不是很感兴趣
v3证明了我的判断是对的
这也侧面证明了其实现在很多研究部门他基本脱离工程
lm inference的瓶颈在kv cache上，想要靠优化平方复杂度来加速attention的全都走错路了，seq len没到d^2的级别贡献的计算量还没ffn大；觉得mla引入计算量会导致inference变慢的也一律视作学艺不精，打回去重学基础。kv量化，kv compress，勉强算找对了问题方向，但是开出的药方治标不治本，不算解决问题。能真正解决问题的，一定是对kv cache的train-time compress
（mla的收益不是提点而是加速，看起来这不是个widely-known的知识，导致有些读者思维惯性出现误解，故此强调）
其次moe
靠moe做scale up的思路是对的，如何scale up就有讲究，v3的发现就是降低维度增加数量，靠组合数来变相提升复杂度，这样同样参数下上限更高
但moe带来的成本优势依然是moe这个结构的特点，v3只是做出了一定程度的优化，不像mla那样切中要害的贡献
或者说其实这个切中要害的贡献已经由moe架构给出了，v3则是站在巨人的肩膀上精益求精
重量级的fp8
粗略估计fp8=2fp16是个大差不差的上界，当然实际加速有没有2倍肯定是没有的，工程上能接近多少看具体优化了（经几位大佬锤以及本人事后恶补，此处应为1.2，是我学艺不精了）。但是，能够啃下来一套fp8的训练，也足够显示这个工程底蕴，v3的这一套fp8颇有秀肌肉的意思在里面，另外也有并行对气泡的优化。。总之工程细节很多一一不列举
总结全文，其实v3能把成本打下来，很大原因是这支团队是（大概率是国内唯一）一支研究团队能和工程团队紧密协作的团队：研究团队对于工程痛点了然于胸，并且能给出解决方案，再由工程团队进行优化实现。如果研究员不深入工程，能看穿推理瓶颈在哪，能给出mla这种解决方案吗？一堆学校里的学生在那琢磨n方复杂度呢

发表于 2025-4-27 16:54:49

看技术报告啊，哪个报告写的多好啊。具体来说，MoE 架构 和 FP8 混合精度训练 是降低 DeepSeek-V3 训练成本的最大因素：

MoE 架构：通过稀疏激活机制大幅减少了计算量。
FP8 训练：通过低精度计算减少了 GPU 内存使用和计算开销。

相比之下，数据蒸馏和外部教师模型的使用对成本的影响较小，DeepSeek-V3 的成本优势主要来自于算法和架构的优化。
至于具体的技术细节，以下是哪个报告的关键内容摘取：
DeepSeek-AI 发布了其最新的大型语言模型 DeepSeek-V3，这款模型在性能和效率方面都取得了显著的进步，成为当前最强大的开源基础模型之一。DeepSeek-V3 是一款拥有 671B参数的大型混合专家 (MoE) 模型，其中每个 token 会有 37 B参数被激活。

为了实现高效的推理和成本效益的训练，DeepSeek-V3 采用了多头潜在注意力 (MLA) 和 DeepSeekMoE 架构，这两个架构在 DeepSeek-V2 中已经得到了充分验证。此外，DeepSeek-V3 还开创了一种无辅助损失策略来平衡负载，并设置了多 token 预测训练目标以进一步提升性能。

架构：创新负载平衡策略和训练目标

基本架构

DeepSeek-V3 的基本架构仍然基于 Transformer 框架，但其采用了 MLA 和 DeepSeekMoE 架构来实现高效推理和成本效益的训练。

多头潜在注意力 (MLA)

MLA 架构的核心思想是对注意力键和值进行低秩联合压缩，从而减少推理过程中的 Key-Value (KV) 缓存。它通过以下步骤实现：
压缩: 将注意力输入 h_t 映射到一个压缩的潜在向量 c_KV_t。
生成键: 使用 W_UK 和 W_VU 矩阵将 c_KV_t 映射到压缩的键和值。
生成解码器: 使用 RoPE 矩阵生成带有旋转位置嵌入 (RoPE) 的解码器。
计算注意力: 使用 softmax 函数计算注意力权重，并生成最终的注意力输出 u_t。
MLA 架构只需要缓存压缩后的潜在向量和带有 RoPE 的解码器，从而显著减少了 KV 缓存，同时保持了与标准多头注意力 (MHA) 相当的性能。
DeepSeekMoE：辅助损失免费负载平衡

DeepSeekMoE 架构使用更细粒度的专家，并将一些专家隔离为共享专家。每个 token 的 FFN 输出 h’_t 通过以下步骤计算：
共享专家: 使用共享专家 FFN( ) (·) 计算共享专家的输出。
路由专家: 使用路由专家 FFN( ) (·) 计算路由专家的输出，并使用门控值 g_i,t 选择激活的专家。
输出: 将共享专家和路由专家的输出相加，得到最终的 FFN 输出 h’_t。
DeepSeek-V3 还引入了一种辅助损失免费负载平衡策略，通过引入偏置项 b_i 并将其添加到相应的亲和度分数 s_i,t 中，来确定 top-K 路由。通过动态调整偏置项，DeepSeek-V3 能够在整个训练过程中保持平衡的专家负载，并取得比纯粹使用辅助损失的模型更好的性能。
多 token 预测

DeepSeek-V3 采用了一种名为多 token 预测 (MTP) 的训练目标，该目标扩展了预测范围，以便在每个位置预测多个未来的 token。MTP 目标可以提高数据效率和模型的预测能力，并通过预先规划未来的 token 的表示来提升性能。
MTP 实现了 D 个连续的模块来预测 D 个额外的 token，每个模块都包含一个共享嵌入层、一个共享输出头、一个 Transformer 模块和一个投影矩阵。每个 MTP 模块都使用线性投影将 token 的表示和嵌入相连接，然后通过 Transformer 模块生成输出表示，并计算额外的预测 token 的概率分布。
基础设施：高效训练的基石

DeepSeek-V3 的训练过程依赖于高效的计算集群和训练框架。

计算集群

DeepSeek-V3 在一个配备 2048 个 NVIDIA H800 GPU 的集群上进行训练。每个节点包含 8 个 GPU，通过 NVLink 和 NVSwitch 相互连接。跨节点之间使用 InfiniBand (IB) 进行通信。

训练框架

DeepSeek-V3 的训练框架基于 HAI-LLM 框架，该框架为高效训练提供了强大的支持。DeepSeek-V3 应用了 16 路 Pipeline Parallelism (PP)、64 路 Expert Parallelism (EP) 和 ZeRO-1 Data Parallelism (DP)。
双向管道并行 (DualPipe)
为了解决跨节点专家并行导致的通信开销问题，DeepSeek-V3 设计了一种名为 DualPipe 的新型管道并行算法。DualPipe 通过重叠正向和反向计算通信阶段，不仅提高了模型训练速度，还减少了管道气泡的数量。
跨节点全连接通信
DeepSeek-V3 开发了高效的跨节点全连接通信内核，以充分利用 IB 和 NVLink 的带宽，并节省专门用于通信的 Streaming Multiprocessors (SMs)。
极低的内存占用
DeepSeek-V3 通过以下技术来降低训练过程中的内存占用：
RMSNorm 和 MLA 上投影的重新计算: 在反向传播过程中重新计算所有 RMSNorm 操作和 MLA 上投影，从而消除了永久存储其输出激活的需求。
CPU 上的指数移动平均: 在训练过程中保存模型参数的指数移动平均 (EMA)，用于早期估计模型性能，并异步更新 EMA 参数，从而避免额外的内存和时间开销。
多 token 预测中的共享嵌入和输出头: 利用 DualPipe 策略，将模型的最浅层和最深层部署在同一个 PP 路径上，从而实现共享嵌入和输出头的参数和梯度，进一步提高内存效率。
FP8 训练

DeepSeek-V3 支持使用 FP8 数据格式进行混合精度训练，以实现加速训练和降低 GPU 内存使用。

混合精度框架
混合精度框架使用 FP8 格式进行大多数计算密集型操作，而一些关键操作则保留其原始数据格式，以平衡训练效率和数值稳定性。

量化精度提升
为了提高低精度训练的精度，DeepSeek-V3 引入了几种策略：
细粒度量化: 将激活和权重分组并分别进行缩放，以更好地适应异常值。
增加累积精度: 将部分结果复制到 FP32 寄存器中进行全精度累积，以提高精度。
尾数超过指数: 采用 E4M3 格式，即 4 位指数和 3 位尾数，以提高精度。
低精度存储和通信
DeepSeek-V3 通过以下方式进一步降低内存和通信开销：
低精度优化器状态: 使用 BF16 格式跟踪 AdamW 优化器的第一和第二矩。
低精度激活: 使用 FP8 格式缓存 Linear 操作的激活，并对一些关键激活使用 E5M6 格式，或重新计算其输出。
低精度通信: 将激活在 MoE 上投影之前量化为 FP8，并使用调度组件，与 MoE 上投影中的 FP8 Fprop 兼容。
预训练：迈向终极训练效率

DeepSeek-V3 在一个包含 14.8 万亿高质量和多样化 token 的语料库上进行预训练。预训练过程非常稳定，没有遇到不可恢复的损失峰值或需要回滚的情况。
数据构建

预训练语料库经过优化，数学和编程样本的比例更高，并扩展了多语言覆盖范围，包括英语和中文。数据处理流程也得到了改进，以减少冗余并保持语料库的多样性。
超参数设置

DeepSeek-V3 的超参数包括 Transformer 层数、隐藏维度、注意力头数、每头维度、KV 压缩维度、查询压缩维度、RoPE 维度、MoE 层数、共享专家数量、路由专家数量、中间隐藏维度、激活专家数量、节点限制路由数量、多 token 预测深度、学习率、批大小等。

长上下文扩展

DeepSeek-V3 采用与 DeepSeek-V2 相似的方法来启用长上下文功能。在预训练阶段之后，应用 YaRN 进行上下文扩展，并进行两个额外的训练阶段，将上下文窗口逐步扩展到 32K 和 128K。
评估

DeepSeek-V3 在一系列基准测试中进行了评估，包括多学科多项选择题、语言理解和推理、闭卷问答、阅读理解、参考消歧、语言模型、中文理解和文化、数学、代码和标准化考试等。DeepSeek-V3 在大多数基准测试中都取得了最强大的性能，尤其是在数学和代码任务上。

讨论

DeepSeek-V3 中的 MTP 策略和多 token 预测策略都取得了显著的性能提升。辅助损失免费负载平衡策略也取得了更好的性能，并且专家具有更强的专业模式。与序列级辅助损失相比，批量级负载平衡方法也表现出一致的效率优势，但其也面临着潜在的挑战，例如序列或小批量中的负载不平衡以及推理过程中域转换引起的负载不平衡。

后训练：知识蒸馏与强化学习

DeepSeek-V3 通过监督微调和强化学习进行后训练，以使其与人类偏好保持一致并进一步释放其潜力。
监督微调（Supervised Fine-Tuning ）

DeepSeek-V3 使用一个包含 150 万个实例的数据集进行监督微调，涵盖了多个领域。对于推理相关的数据集，例如数学、代码竞赛问题和逻辑谜题，使用内部 DeepSeek-R1 模型生成数据。对于非推理数据，例如创意写作、角色扮演和简单问答，使用 DeepSeek-V2.5 生成。并通过拒绝抽样方法筛选高质量数据，以确保最终训练数据的准确性和简洁性。
SFT 设置：DeepSeek-V3 使用余弦退火学习率调度进行两个 epoch 的训练，初始学习率为 5 × 10^-6，并逐渐降低到 1 × 10^-6。在训练过程中，每个序列由多个样本打包，并使用样本掩码策略确保这些示例保持隔离并相互不可见。
强化学习

DeepSeek-V3 采用基于规则的奖励模型 (RM) 和基于模型的 RM 来确定模型的反馈。对于可以验证的特定规则的问题，使用基于规则的奖励系统来确定反馈。对于具有自由格式真实答案的问题，使用奖励模型来确定答案是否与预期的真实答案匹配。对于没有明确真实答案的问题，奖励模型负责根据问题和答案提供反馈。
DeepSeek-V3 使用组相对策略优化 (GRPO) 进行强化学习，该优化方法放弃了与策略模型相同大小的评论模型，而是从组分数中估计基线。在 RL 过程中，模型使用高温采样生成包含来自 DeepSeek-R1 生成数据和原始数据的模式的响应，即使在缺乏明确系统提示的情况下也能做到。
评估

DeepSeek-V3 在一系列基准测试中进行了评估，包括 IFEval、FRAMES、LongBench v2、GPQA、SimpleQA、C-SimpleQA、SWE-Bench Verified、Aider 1、LiveCodeBench、Codeforces、中国高中数学奥林匹克 (CNMO) 2024 和美国邀请数学考试 (AIME) 2024 等。DeepSeek-V3 在大多数基准测试中都取得了最强大的性能，尤其是在代码、数学和长上下文理解任务上。

讨论

DeepSeek-V3 从 DeepSeek-R1 系列模型中蒸馏推理能力取得了成功，显著提高了其在数学和代码基准测试中的性能。同时，DeepSeek-V3 还采用了宪法 AI 方法，利用 DeepSeek-V3 自身的投票评估结果作为反馈来源，进一步提高了其在主观评估中的性能。
DeepSeek-V3 中的多 token 预测技术可以显著加速模型的解码速度，而额外的预测 token 的接受率在 85% 到 90% 之间，这表明其具有高度的可靠性。
结论、局限性和未来方向

DeepSeek-V3 是一款性能强大且成本效益高的开源大型语言模型，它在推理和生成任务中都取得了显著的成果。DeepSeek-V3 的训练成本非常低，只需 2.788M H800 GPU 小时即可完成其全部训练，包括预训练、上下文长度扩展和后训练。
尽管 DeepSeek-V3 在性能和效率方面取得了显著成果，但它仍然存在一些局限性，尤其是在部署方面。DeepSeek-V3 的推荐部署单元相对较大，这可能对小型团队构成负担。此外，尽管 DeepSeek-V3 的部署策略已经实现了比 DeepSeek-V2 高两倍的端到端生成速度，但仍然存在进一步提升的空间。

DeepSeek-V3 开发了创新的负载平衡策略和训练目标，以实现高效训练。它还引入了 FP8 训练和一系列高效的工程优化措施，以进一步降低训练成本。
DeepSeek-V3 还在后训练阶段取得了成功，通过知识蒸馏和强化学习技术，显著提高了其在数学和代码基准测试中的性能。
DeepSeek-V3 在一系列基准测试中取得了最强大的性能，尤其是在数学、代码和长上下文理解任务上。
DeepSeek-V3 的局限性主要在于部署方面，包括较大的部署单元和潜在的性能提升空间。
DeepSeek-V3 采用了宪法 AI （constitutional AI）方法，利用 DeepSeek-V3 自身的投票评估结果作为反馈来源，进一步提高了其在主观评估中的性能。
DeepSeek-V3 中的多 token 预测技术可以显著加速模型的解码速度，而额外的预测 token 的接受率在 85% 到 90% 之间，这表明其具有高度的可靠性。

DeepSeek 持续致力于开源模型的道路，并计划在未来进行以下方面的研究：

进一步改进模型架构，以提高训练和推理效率，并尝试突破 Transformer 架构的限制。
持续迭代训练数据的质量和数量，并探索其他训练信号来源，以推动数据扩展到更广泛的维度。
持续探索和迭代模型的深度思考能力，以增强其智能和问题解决能力，并扩展其推理长度和深度。
探索更全面和多维度的模型评估方法，以防止在研究过程中优化固定的一组基准测试，从而产生对模型能力的误导印象并影响我们的基础评估。

DeepSeek-V3 的发布标志着开源大型语言模型领域的一个重大里程碑，并为未来的研究和应用开辟了新的可能性。
简单测试

DeepSeek-V3开源模型，我肯定是没有资源部署了，所以只能通过它的服务网站进行测试了。
地址：DeepSeek

算一下星舰从地球到火星的飞行时间：

让它分析一下自己的技术文档：

最后让它比较了一下自己与GPT-4o-0513

... 略...

用了一段时间后的更新，我发现deepseek v3的一个很好的特点是跟随性很好，基本可以指哪打哪。

deepseek v3的成本这么低的根本原因是什么？

本周热门