DeepSeek-V3-0324 发布,本次 V3 版本有哪些改进?

https://huggingface.co/deepseek-ai/DeepSeek-V3-0324
据说在前端开发能力达到了Sonnet 3.5/3.6的水平
和上周不少朋友期待的一样,新一周第一天的北京时间 3 月 24 日晚,DeepSeek 果然「突然」发布了模型更新。
但暂时还不是 DeepSeek V4 或 R2,而是 DeepSeek V3 模型的一次更新。目前,其开源版本目前已经上架开源网站。其开源版本模型体积为 6850 亿参数。
深度求索微信官方公众号也确认,本次更新属于小版本升级,目前已经在官方网页、App 小程序等入口开放。
初代 V3 模型最为人所熟知的,可能还是「557.6万美金比肩Claude 3.5效果」的超级性价比。而更新后的模型由其新的 32KGPU 集群上改进的后训练提供支持。
截至目前,还没有任何关于新版 DeepSeek V3 的能力基准测试榜单出现,但有了 DeepSeek V3 发布即成为 Chatbot Arena 榜单前十中唯一一个开源模型的刷榜历史,还是在发布一小时后迅速吸引来全球用户对其测试体验。
根据目前最新的用户上手测试,新版 V3 模型前端编码能力的提升,是目前「感知最强」的部分。根据专业用户对新版 V3 的综合体验判断,V3-0324 的提升幅度大约相当于 Sonnet 3.5 到 Sonnet 3.6 的提升。
用户按照下面的提示词,同时对新版 V3 与 R1 下达任务,实际产出的效果已经出现巨大差异。
创建一个包含 CSS 和 JavaScript 的单个 HTML 文件,以生成一个动画天气卡片。卡片应通过不同的动画直观地表示以下天气条件:风:(例如,移动的云朵、摇曳的树木或风线)雨:(例如,落下的雨滴、形成的水坑)晴:(例如,闪耀的光线、明亮的背景)雪:(例如,落下的雪花、积雪)并排显示所有天气卡片。卡片应具有深色背景。在此单个文件中提供所有 HTML、CSS 和 JavaScript 代码。JavaScript 应包含一种在不同天气条件之间切换的方法(例如,一个函数或一组按钮),以演示每种天气的动画。
左侧是 DeepSeek 新版 V3 模型的生成结果,右侧为 R1 的生成结果。

DeepSeek-V3-0324 发布,本次 V3 版本有哪些改进?-1.jpg

除了对比 R1 ,用户还用类似的提示词,对比了 Claude 系列。Claude 3.7 作为目前号称「编程能力最强模型」,实际编程能力使用体验也是多次被评为「已经达到专家级程序员水准」。

DeepSeek-V3-0324 发布,本次 V3 版本有哪些改进?-2.jpg

同一提示词给到 Claude 3.5/3.7 后,模型生成的前端内容如下所示:

DeepSeek-V3-0324 发布,本次 V3 版本有哪些改进?-3.jpg

除了这个测试案例,根据更多用户对之前 prompt 测试的结果,普遍结论是当前新版 V3 在编码能力已经接近claude3.7 ,同时也是目前第一时间上手中,大家觉得比之前的 v3 能力提升最大的部分。
针对前端网站搭建测试,新版 V3 所生成的网站(上)在与 Claude 3.7 Sonnet 生成的结果(下)中,也快速「拉齐」了网站的构建效果

DeepSeek-V3-0324 发布,本次 V3 版本有哪些改进?-4.jpg


除了编程能力,在其他用户的测试中,新版 V3 在多轮对话中体现出了更强的上下文理解能力。
当然,与往常一样,DeepSeek 也没有同时公开表示 R2 或者 V4 模型会在何时发布,但不少用户在体验过新版 V3 后,都觉得似乎 R2 的到来,也已经不远了。
还有一个普通用户「感知不强」,但让开源社区非常兴奋的改变。新版 V3 的开源许可与 R1 一样,也更新变成了 MIT 开源许可(MIT License),这意味着新版 V3 有着比初代 V3 更宽松的开源使用条件。
收藏者
0
被浏览
70

8 个回答

透露小温馨 LV

发表于 3 天前

DeepSeek看来不准备发公告了。
一句话总结:昨日的基础大模型之壁GPT4.5恐沦为笑柄。
基于V3.5题库(3月版本)测试成绩,极限分力压GPT4.5,达到67,中位分也比4.5高少许。

DeepSeek-V3-0324 发布,本次 V3 版本有哪些改进?-1.jpg

笔者的测试方法可参见之前的月榜评测系列文章:
toyama nao:大语言模型横评 25-02 Update(o3 mini/Sonnet3.7/Grok3/Gemini2.0)以下是详细结论。
首先,可以推知,V3新版使用了R1的数据,V3的输出平均长度来到了5030字符,远高于其他基础模型,甚至部分题目输出达到了12000~13000这种推理模型才有的规模。看内容也确实是复刻先前R1的推导过程,有些题目还保留了R1推理到一半切成英文的“习惯”。
其次,V3虽然很强,但小问题也很多。V3的指令遵循能力与R1接近,都存在较多缺陷。比如#10水果热量问题,V3尽然强行修改题目要求。#22连续计算,上来第一步就忽略题目要求。
对于复杂难题部分,如#4拧魔方,#23解密,#24找数字符规律,V3的智力不够,找不到解法,但这不怪V3,他的先辈R1也是错的。
也有部分字符类问题,R1是稳定正确,如#9数字缩写,#11岛屿计数。R1是接近满分,V3幻觉严重,基本不得分。
在宣称的数学,程序改进方面,确实比V3初版进步显著,但最大问题还是不稳定,编程题可能在全对和全错之间随机。这一点在其中位分比最高分低17%中也能反应出来。
<hr/>如果是”死对头GPT4.5“对比,二者虽然分数接近。但细节差异很多。
4.5保留了许多来自o1/o3的推理特点,擅长字符类,前面V3丢分的字符类问题,4.5这边得分都较高。而V3可以在数学问题上拿到更多分。
此外,4.5的输出稳定性也稍好。
但不管怎么说,4.5比V3贵135倍,OpenAI你得给个说法。在基础模型这块,你不干有的是人干。
<hr/>总结。
这又是DeepSeek擅长的左脚踩右脚上天模式,V2时代靠V2 Coder模型专项提升逻辑能力,再合Chat模型融合出V2.5。现在又用R1的能力喂出V3新版这个基础模型怪物。
V3新版的编程能力测试会更新在编程测试月榜,4月初发布。

晓晓的波浪 LV

发表于 3 天前

Update:官网刚刚更新了版本说明,数学和编程提升幅度很大,推理能力增强,写作风格和 R1 对齐(倒也不是非得学 R1 那么癫…):
deepseek-chat 模型升级为 DeepSeek-V3-0324:

  • 推理能力增强

    • 基准测试提升显著

      • MMLU-Pro: 75.9 → 81.2 (+5.3)
      • GPQA: 59.1 → 68.4 (+9.3)
      • AIME: 39.6 → 59.4 (+19.8)
      • LiveCodeBench: 39.2 → 49.2 (+10.0)


  • Web前端开发能力优化

    • 代码生成准确率提升
    • 生成的网页与游戏前端更加美观

  • 中文写作能力升级

    • 风格与内容优化

      • 实现与R1写作风格对齐
      • 中长篇写作内容质量提升


  • 功能增强

    • 多轮交互式改写能力提升
    • 翻译质量与书信写作优化

  • 中文搜索能力优化

    • 报告分析类请求优化,输出内容详实

  • Function Calling 能力改进

    • Function Calling 准确率提升,修复 V3 之前的问题

<hr/>个人感觉:DeepSeek-V3-0324 可能是专门优化提升编程能力的一个版本,其余能力变化不大。
DeepSeek 官方并没有更新版本号(算是 V3 的一个快照更新),没有对此次更新做任何宣传,甚至连更新日志也没写[1]。我们无从知道 DeepSeek 的真实用意,是觉得这只是一次「不值一提的微小更新」,还是他们已经忙得顾不上这些细节了;也不知道他们内部觉得 0324 算是 V3.3 还是 V3.7,距离 V4 还有多远,发 V4/R2 之前还会不会再发一个 R1-03xx…

DeepSeek-V3-0324 发布,本次 V3 版本有哪些改进?-1.jpg

无论如何,以 DeepSeek 现在的热度,再微小的更新也会被大家用放大镜审视。
首先是模型上,DeepSeek-V3-0324[2] 和 DeepSeek-V3[3] 相比,变化并不大。当然这部分现在网上说法不一样,有说参数涨了的,有说 MoE 激活变了的,有说上下文长度变了的。
我个人的理解,二者都是 671B 参数模型(+14B MTP 权重),二者的 MoE 架构也没变。二者的上下文长度似乎也没变。DeepSeek-V3-0324 就是一个新训练的 snapshot,训练方式和推理方式似乎都没有大的更新。
现在 DeepSeek 官网和 API 上已经更新到了 0324 版本,大家可以直接使用。

DeepSeek-V3-0324 发布,本次 V3 版本有哪些改进?-2.jpg

插播一句小小的吐槽,虽然 DeepSeek 一直是这样「覆盖式全量部署」deepseek-chat的,表明他们对模型能力提升的自信。但对于开发者来说,一觉睡醒生产环境的模型变了还是会有影响的…这也是为什么其他厂家会保留很多不同的 snapshots,就是为了保证业务稳定。毕竟换了模型,就意味着测评要重新跑,Prompt 也可能要调整。不过鉴于 DeepSeek 现在有这么多第三方的服务,这也不算什么问题。
我自己拿惯用的行测题目跑了一下 0324 的新接口,怎么说呢,整体变化不算大,分数的升降都可以算在模型输出不稳定性里(也不排除这个测试场景太窄没能体现出能力提升,还是需要看更多更宽的测评集):

DeepSeek-V3-0324 发布,本次 V3 版本有哪些改进?-3.jpg

当然,目前体感上最明显、最直接的变化,就是编程能力的提升,这个是毫无疑问的,甚至猜测 0324 是专门微调了编程专家。
DeepSeek-V3-0324 的编程能力大幅超过了 DeepSeek V3 甚至是 R1,逼近了 Claude 3.7。这方面大家实测的不同 case 已经很多了,等等看更多编程领域的 bench 分数就能验证。
个人总结:模型训练方式保持不变,编程能力提升巨大,其余场景变化不多。

kevinnest LV

发表于 3 天前

没有ppt,没有发布会,没有大展台,没有大屏幕,没有吹牛。
两个字:来测
伟大的产品,回归产品本身。
不需要高端营销

八部九狸 LV

发表于 3 天前

测试了下写作能力,提升确实巨大,甚至有点超预期,爱了爱了
指令依旧是:用香艳迷离的文字,写一群女侠在映月湖沐浴

情感职场成长师 LV

发表于 3 天前

给大家带来全网最速 DeepSeek-V3-0324 写代码实测!
直接说结论—— 超越 DeepSeek-R1!甚至超越 Claude-3.7! 难以想象这还不是一个 Thinking 模型!

DeepSeek-V3-0324 目前以 328.3 分在 KCORES 大模型竞技场排名第三 (图1),仅次于 claude-3.7-sonnet-thinking 和 claude-3.5 (没错 claude-3.5 在我们的测试下比 claude-3.7 要好一些)。

DeepSeek-V3-0324 发布,本次 V3 版本有哪些改进?-1.jpg


四项评测中:
20 小球碰撞测试 (图2),肉眼可见的进步,之前 DeepSeek-V3 的小球挤成一团,现在物理运动模拟得非常好,仅因掉出了7边形扣了5分,项目排名第5 (图3)


DeepSeek-V3-0324 发布,本次 V3 版本有哪些改进?-2.jpg


DeepSeek-V3-0324 发布,本次 V3 版本有哪些改进?-3.jpg

mandelbrot-set-meet-libai 测试 (图4),没有过多变化,分数较DeepSeek-V3 低了2分,主要还是将渲染方向搞反了以至于拖累了渲染性能,但是完成度可以看到比之前高很多。项目排名第12 (图5)

DeepSeek-V3-0324 发布,本次 V3 版本有哪些改进?-4.jpg


DeepSeek-V3-0324 发布,本次 V3 版本有哪些改进?-5.jpg


火星任务测试(图6),巨大的提升,这次星球,图例均渲染正确,甚至发射和返回窗口计算也有很大进步!项目排名第3 (图7)

DeepSeek-V3-0324 发布,本次 V3 版本有哪些改进?-6.jpg


DeepSeek-V3-0324 发布,本次 V3 版本有哪些改进?-7.jpg


九大行星模拟测试(图8),这个是史诗级提升,这是测试的25个模型中,唯一一个画了土星环的大模型!(画土星环就如同画时钟要写3,6,9,12. 画苹果要有个梗一样)项目排名第16,主要还是地球轨道周期没写对 (图9)


DeepSeek-V3-0324 发布,本次 V3 版本有哪些改进?-8.jpg


DeepSeek-V3-0324 发布,本次 V3 版本有哪些改进?-9.jpg

总体而言,DeepSeek-V3-0324 能力十分可怕,甚至这还都不是 DeepSeek-V4,更不是 DeepSeek-R2 !我现在十分期待 DeepSeek-R2 的发布了!

评测是开源的哦,地址:github.com/KCORES/kcores-LLM-Arena

谭志刚 LV

发表于 3 天前

关于DeepSeek-V3-0324版本更新,它包含了一系列针对性能和用户体验的优化和改进。最新的前端编码能力显著提升,相当于Sonnet 3.5至Sonnet 3.6的进步。具体改进体现在:<br><br>1. 后训练支持:新模型在32KGPU集群上进行训练,提供了更强的性能和更准确的结果。<br>2. 能力基准测试:虽然目前没有具体的基准测试榜单,但全球用户上手测试反映V3模型前端编码能力提升显著。<br>3. 响应和交互:新版V3模型在响应速度和用户交互方面有了显著改进,特别是在处理复杂任务时更为高效和准确。<br>4. 任务执行:对于用户提出的创建包含CSS和JavaScript的单个HTML文件以生成动画天气卡片的任务,新版V3模型能够生成更为精细和生动的结果,与R1版本相比具有明显优势。<br><br>DeepSeek V3模型的开源版本已经上架开源网站,模型体积为6850亿参数,并在官方网页、App小程序等入口开放使用。此次更新属于小版本升级,但带来了不少令人印象深刻的改进。

fredqiqi LV

发表于 3 天前

针对您提到的DeepSeek-V3-0324版本的改进,根据官方发布和用户的测试体验,新版V3模型在前端开发能力上有了显著的提升,相当于Sonnet 3.5至Sonnet 3.6的提升。特别是在任务完成效率和生成内容的质量上,新版V3表现出了更优秀的性能。<br><br>对于用户提出的关于生成包含CSS和JavaScript的单个HTML文件以展示不同天气动画卡片的任务,DeepSeek新版V3模型在生成结果上相较于R1版本有了明显的提升。新模型能够更准确地理解并响应复杂的任务需求,生成的结果更加精细且富有动态效果。<br><br>总的来说,DeepSeek-V3-0324版本在前端开发能力上的改进,使其在理解并执行复杂任务、生成高质量内容上有了更大的突破。这一更新无疑将进一步推动DeepSeek模型在AI领域的应用和发展。

yanjifu LV

发表于 3 天前

DeepSeek V3的新版本发布已经引起广泛关注。相比于之前的版本,DeepSeek V3在前端编码能力上有了显著的提升。根据专业用户的测试体验,其改进幅度相当于从Sonnet 3.5到Sonnet 3.6的提升。特别是在处理复杂任务时,如生成包含CSS和JavaScript的单个HTML文件以展示动画天气卡片,新版V3模型表现出了出色的能力。<br><br>此次更新后的DeepSeek V3模型,在完成任务时,能够更准确地理解并生成相应的代码。比如,在生成动画天气卡片的示例中,新版V3模型能够更生动、形象地表现出不同的天气条件,如风、雨、晴、雪等。同时,模型还具备在不同天气条件之间切换的功能,使得生成的卡片更具交互性。<br><br>总的来说,DeepSeek V3的新版本在前端编码能力上有了显著的进步,能够更准确地理解并完成任务,生成更高质量的结果。具体的改进细节和性能基准还需要进一步的研究和测试来验证。

您需要登录后才可以回帖 登录 | 立即注册