DeepSeek-V3-0324 发布，本次 V3 版本有哪些改进？

https://huggingface.co/deepseek-ai/DeepSeek-V3-0324
据说在前端开发能力达到了Sonnet 3.5/3.6的水平
和上周不少朋友期待的一样，新一周第一天的北京时间 3 月 24 日晚，DeepSeek 果然「突然」发布了模型更新。
但暂时还不是 DeepSeek V4 或 R2，而是 DeepSeek V3 模型的一次更新。目前，其开源版本目前已经上架开源网站。其开源版本模型体积为 6850 亿参数。
深度求索微信官方公众号也确认，本次更新属于小版本升级，目前已经在官方网页、App 小程序等入口开放。
初代 V3 模型最为人所熟知的，可能还是「557.6万美金比肩Claude 3.5效果」的超级性价比。而更新后的模型由其新的 32KGPU 集群上改进的后训练提供支持。
截至目前，还没有任何关于新版 DeepSeek V3 的能力基准测试榜单出现，但有了 DeepSeek V3 发布即成为 Chatbot Arena 榜单前十中唯一一个开源模型的刷榜历史，还是在发布一小时后迅速吸引来全球用户对其测试体验。
根据目前最新的用户上手测试，新版 V3 模型前端编码能力的提升，是目前「感知最强」的部分。根据专业用户对新版 V3 的综合体验判断，V3-0324 的提升幅度大约相当于 Sonnet 3.5 到 Sonnet 3.6 的提升。
用户按照下面的提示词，同时对新版 V3 与 R1 下达任务，实际产出的效果已经出现巨大差异。
创建一个包含 CSS 和 JavaScript 的单个 HTML 文件，以生成一个动画天气卡片。卡片应通过不同的动画直观地表示以下天气条件：风：（例如，移动的云朵、摇曳的树木或风线）雨：（例如，落下的雨滴、形成的水坑）晴：（例如，闪耀的光线、明亮的背景）雪：（例如，落下的雪花、积雪）并排显示所有天气卡片。卡片应具有深色背景。在此单个文件中提供所有 HTML、CSS 和 JavaScript 代码。JavaScript 应包含一种在不同天气条件之间切换的方法（例如，一个函数或一组按钮），以演示每种天气的动画。
左侧是 DeepSeek 新版 V3 模型的生成结果，右侧为 R1 的生成结果。

DeepSeek-V3-0324 发布，本次 V3 版本有哪些改进？-1.jpg

除了对比 R1 ，用户还用类似的提示词，对比了 Claude 系列。Claude 3.7 作为目前号称「编程能力最强模型」，实际编程能力使用体验也是多次被评为「已经达到专家级程序员水准」。

DeepSeek-V3-0324 发布，本次 V3 版本有哪些改进？-2.jpg

同一提示词给到 Claude 3.5/3.7 后，模型生成的前端内容如下所示：

DeepSeek-V3-0324 发布，本次 V3 版本有哪些改进？-3.jpg

除了这个测试案例，根据更多用户对之前 prompt 测试的结果，普遍结论是当前新版 V3 在编码能力已经接近claude3.7 ，同时也是目前第一时间上手中，大家觉得比之前的 v3 能力提升最大的部分。
针对前端网站搭建测试，新版 V3 所生成的网站（上）在与 Claude 3.7 Sonnet 生成的结果（下）中，也快速「拉齐」了网站的构建效果

DeepSeek-V3-0324 发布，本次 V3 版本有哪些改进？-4.jpg

除了编程能力，在其他用户的测试中，新版 V3 在多轮对话中体现出了更强的上下文理解能力。
当然，与往常一样，DeepSeek 也没有同时公开表示 R2 或者 V4 模型会在何时发布，但不少用户在体验过新版 V3 后，都觉得似乎 R2 的到来，也已经不远了。
还有一个普通用户「感知不强」，但让开源社区非常兴奋的改变。新版 V3 的开源许可与 R1 一样，也更新变成了 MIT 开源许可（MIT License），这意味着新版 V3 有着比初代 V3 更宽松的开源使用条件。

发表于 2025-4-2 06:45:20

DeepSeek看来不准备发公告了。
一句话总结：昨日的基础大模型之壁GPT4.5恐沦为笑柄。
基于V3.5题库（3月版本）测试成绩，极限分力压GPT4.5，达到67，中位分也比4.5高少许。

笔者的测试方法可参见之前的月榜评测系列文章：
toyama nao：大语言模型横评 25-02 Update(o3 mini/Sonnet3.7/Grok3/Gemini2.0)以下是详细结论。
首先，可以推知，V3新版使用了R1的数据，V3的输出平均长度来到了5030字符，远高于其他基础模型，甚至部分题目输出达到了12000~13000这种推理模型才有的规模。看内容也确实是复刻先前R1的推导过程，有些题目还保留了R1推理到一半切成英文的“习惯”。
其次，V3虽然很强，但小问题也很多。V3的指令遵循能力与R1接近，都存在较多缺陷。比如#10水果热量问题，V3尽然强行修改题目要求。#22连续计算，上来第一步就忽略题目要求。
对于复杂难题部分，如#4拧魔方，#23解密，#24找数字符规律，V3的智力不够，找不到解法，但这不怪V3，他的先辈R1也是错的。
也有部分字符类问题，R1是稳定正确，如#9数字缩写，#11岛屿计数。R1是接近满分，V3幻觉严重，基本不得分。
在宣称的数学，程序改进方面，确实比V3初版进步显著，但最大问题还是不稳定，编程题可能在全对和全错之间随机。这一点在其中位分比最高分低17%中也能反应出来。
<hr/>如果是”死对头GPT4.5“对比，二者虽然分数接近。但细节差异很多。
4.5保留了许多来自o1/o3的推理特点，擅长字符类，前面V3丢分的字符类问题，4.5这边得分都较高。而V3可以在数学问题上拿到更多分。
此外，4.5的输出稳定性也稍好。
但不管怎么说，4.5比V3贵135倍，OpenAI你得给个说法。在基础模型这块，你不干有的是人干。
<hr/>总结。
这又是DeepSeek擅长的左脚踩右脚上天模式，V2时代靠V2 Coder模型专项提升逻辑能力，再合Chat模型融合出V2.5。现在又用R1的能力喂出V3新版这个基础模型怪物。
V3新版的编程能力测试会更新在编程测试月榜，4月初发布。

发表于 2025-4-2 07:00:20

Update：官网刚刚更新了版本说明，数学和编程提升幅度很大，推理能力增强，写作风格和 R1 对齐（倒也不是非得学 R1 那么癫…）：
deepseek-chat 模型升级为 DeepSeek-V3-0324：

推理能力增强
- 基准测试提升显著
  - MMLU-Pro: 75.9 → 81.2 (+5.3)
  - GPQA: 59.1 → 68.4 (+9.3)
  - AIME: 39.6 → 59.4 (+19.8)
  - LiveCodeBench: 39.2 → 49.2 (+10.0)
Web前端开发能力优化
- 代码生成准确率提升
- 生成的网页与游戏前端更加美观
中文写作能力升级
- 风格与内容优化
  - 实现与R1写作风格对齐
  - 中长篇写作内容质量提升
功能增强
- 多轮交互式改写能力提升
- 翻译质量与书信写作优化
中文搜索能力优化
- 报告分析类请求优化，输出内容详实
Function Calling 能力改进
- Function Calling 准确率提升，修复 V3 之前的问题

<hr/>个人感觉：DeepSeek-V3-0324 可能是专门优化提升编程能力的一个版本，其余能力变化不大。
DeepSeek 官方并没有更新版本号（算是 V3 的一个快照更新），没有对此次更新做任何宣传，甚至连更新日志也没写[1]。我们无从知道 DeepSeek 的真实用意，是觉得这只是一次「不值一提的微小更新」，还是他们已经忙得顾不上这些细节了；也不知道他们内部觉得 0324 算是 V3.3 还是 V3.7，距离 V4 还有多远，发 V4/R2 之前还会不会再发一个 R1-03xx…

无论如何，以 DeepSeek 现在的热度，再微小的更新也会被大家用放大镜审视。
首先是模型上，DeepSeek-V3-0324[2] 和 DeepSeek-V3[3] 相比，变化并不大。当然这部分现在网上说法不一样，有说参数涨了的，有说 MoE 激活变了的，有说上下文长度变了的。
我个人的理解，二者都是 671B 参数模型（+14B MTP 权重），二者的 MoE 架构也没变。二者的上下文长度似乎也没变。DeepSeek-V3-0324 就是一个新训练的 snapshot，训练方式和推理方式似乎都没有大的更新。
现在 DeepSeek 官网和 API 上已经更新到了 0324 版本，大家可以直接使用。

插播一句小小的吐槽，虽然 DeepSeek 一直是这样「覆盖式全量部署」deepseek-chat的，表明他们对模型能力提升的自信。但对于开发者来说，一觉睡醒生产环境的模型变了还是会有影响的…这也是为什么其他厂家会保留很多不同的 snapshots，就是为了保证业务稳定。毕竟换了模型，就意味着测评要重新跑，Prompt 也可能要调整。不过鉴于 DeepSeek 现在有这么多第三方的服务，这也不算什么问题。
我自己拿惯用的行测题目跑了一下 0324 的新接口，怎么说呢，整体变化不算大，分数的升降都可以算在模型输出不稳定性里（也不排除这个测试场景太窄没能体现出能力提升，还是需要看更多更宽的测评集）：

当然，目前体感上最明显、最直接的变化，就是编程能力的提升，这个是毫无疑问的，甚至猜测 0324 是专门微调了编程专家。
DeepSeek-V3-0324 的编程能力大幅超过了 DeepSeek V3 甚至是 R1，逼近了 Claude 3.7。这方面大家实测的不同 case 已经很多了，等等看更多编程领域的 bench 分数就能验证。
个人总结：模型训练方式保持不变，编程能力提升巨大，其余场景变化不多。

发表于 2025-4-2 07:09:16

没有ppt，没有发布会，没有大展台，没有大屏幕，没有吹牛。
两个字：来测
伟大的产品，回归产品本身。
不需要高端营销

发表于 2025-4-2 07:22:42

测试了下写作能力，提升确实巨大，甚至有点超预期，爱了爱了
指令依旧是：用香艳迷离的文字，写一群女侠在映月湖沐浴

发表于 2025-4-2 07:32:37

给大家带来全网最速 DeepSeek-V3-0324 写代码实测！
直接说结论—— 超越 DeepSeek-R1！甚至超越 Claude-3.7! 难以想象这还不是一个 Thinking 模型！

DeepSeek-V3-0324 目前以 328.3 分在 KCORES 大模型竞技场排名第三 (图1)，仅次于 claude-3.7-sonnet-thinking 和 claude-3.5 (没错 claude-3.5 在我们的测试下比 claude-3.7 要好一些)。

四项评测中：
20 小球碰撞测试 (图2)，肉眼可见的进步，之前 DeepSeek-V3 的小球挤成一团，现在物理运动模拟得非常好，仅因掉出了7边形扣了5分，项目排名第5 (图3)

mandelbrot-set-meet-libai 测试 (图4)，没有过多变化，分数较DeepSeek-V3 低了2分，主要还是将渲染方向搞反了以至于拖累了渲染性能，但是完成度可以看到比之前高很多。项目排名第12 （图5）

DeepSeek-V3-0324 发布，本次 V3 版本有哪些改进？-5.jpg

火星任务测试（图6），巨大的提升，这次星球，图例均渲染正确，甚至发射和返回窗口计算也有很大进步！项目排名第3 （图7）

DeepSeek-V3-0324 发布，本次 V3 版本有哪些改进？-6.jpg

DeepSeek-V3-0324 发布，本次 V3 版本有哪些改进？-7.jpg

九大行星模拟测试（图8），这个是史诗级提升，这是测试的25个模型中，唯一一个画了土星环的大模型！（画土星环就如同画时钟要写3，6，9，12. 画苹果要有个梗一样）项目排名第16，主要还是地球轨道周期没写对（图9）

DeepSeek-V3-0324 发布，本次 V3 版本有哪些改进？-8.jpg

DeepSeek-V3-0324 发布，本次 V3 版本有哪些改进？-9.jpg

总体而言，DeepSeek-V3-0324 能力十分可怕，甚至这还都不是 DeepSeek-V4，更不是 DeepSeek-R2 ！我现在十分期待 DeepSeek-R2 的发布了！

评测是开源的哦，地址：github.com/KCORES/kcores-LLM-Arena

发表于 2025-4-2 17:58:22

关于DeepSeek-V3-0324版本更新，它包含了一系列针对性能和用户体验的优化和改进。最新的前端编码能力显著提升，相当于Sonnet 3.5至Sonnet 3.6的进步。具体改进体现在： 1. 后训练支持：新模型在32KGPU集群上进行训练，提供了更强的性能和更准确的结果。 2. 能力基准测试：虽然目前没有具体的基准测试榜单，但全球用户上手测试反映V3模型前端编码能力提升显著。 3. 响应和交互：新版V3模型在响应速度和用户交互方面有了显著改进，特别是在处理复杂任务时更为高效和准确。 4. 任务执行：对于用户提出的创建包含CSS和JavaScript的单个HTML文件以生成动画天气卡片的任务，新版V3模型能够生成更为精细和生动的结果，与R1版本相比具有明显优势。 DeepSeek V3模型的开源版本已经上架开源网站，模型体积为6850亿参数，并在官方网页、App小程序等入口开放使用。此次更新属于小版本升级，但带来了不少令人印象深刻的改进。

发表于 2025-4-2 18:15:17

针对您提到的DeepSeek-V3-0324版本的改进，根据官方发布和用户的测试体验，新版V3模型在前端开发能力上有了显著的提升，相当于Sonnet 3.5至Sonnet 3.6的提升。特别是在任务完成效率和生成内容的质量上，新版V3表现出了更优秀的性能。 对于用户提出的关于生成包含CSS和JavaScript的单个HTML文件以展示不同天气动画卡片的任务，DeepSeek新版V3模型在生成结果上相较于R1版本有了明显的提升。新模型能够更准确地理解并响应复杂的任务需求，生成的结果更加精细且富有动态效果。 总的来说，DeepSeek-V3-0324版本在前端开发能力上的改进，使其在理解并执行复杂任务、生成高质量内容上有了更大的突破。这一更新无疑将进一步推动DeepSeek模型在AI领域的应用和发展。

发表于 2025-4-2 18:19:31

DeepSeek V3的新版本发布已经引起广泛关注。相比于之前的版本，DeepSeek V3在前端编码能力上有了显著的提升。根据专业用户的测试体验，其改进幅度相当于从Sonnet 3.5到Sonnet 3.6的提升。特别是在处理复杂任务时，如生成包含CSS和JavaScript的单个HTML文件以展示动画天气卡片，新版V3模型表现出了出色的能力。 此次更新后的DeepSeek V3模型，在完成任务时，能够更准确地理解并生成相应的代码。比如，在生成动画天气卡片的示例中，新版V3模型能够更生动、形象地表现出不同的天气条件，如风、雨、晴、雪等。同时，模型还具备在不同天气条件之间切换的功能，使得生成的卡片更具交互性。 总的来说，DeepSeek V3的新版本在前端编码能力上有了显著的进步，能够更准确地理解并完成任务，生成更高质量的结果。具体的改进细节和性能基准还需要进一步的研究和测试来验证。

DeepSeek-V3-0324 发布，本次 V3 版本有哪些改进？

本周热门