DeepSeek-V3-0324 发布,本次 V3 版本有哪些改进?
https://huggingface.co/deepseek-ai/DeepSeek-V3-0324据说在前端开发能力达到了Sonnet 3.5/3.6的水平
和上周不少朋友期待的一样,新一周第一天的北京时间 3 月 24 日晚,DeepSeek 果然「突然」发布了模型更新。
但暂时还不是 DeepSeek V4 或 R2,而是 DeepSeek V3 模型的一次更新。目前,其开源版本目前已经上架开源网站。其开源版本模型体积为 6850 亿参数。
深度求索微信官方公众号也确认,本次更新属于小版本升级,目前已经在官方网页、App 小程序等入口开放。
初代 V3 模型最为人所熟知的,可能还是「557.6万美金比肩Claude 3.5效果」的超级性价比。而更新后的模型由其新的 32KGPU 集群上改进的后训练提供支持。
截至目前,还没有任何关于新版 DeepSeek V3 的能力基准测试榜单出现,但有了 DeepSeek V3 发布即成为 Chatbot Arena 榜单前十中唯一一个开源模型的刷榜历史,还是在发布一小时后迅速吸引来全球用户对其测试体验。
根据目前最新的用户上手测试,新版 V3 模型前端编码能力的提升,是目前「感知最强」的部分。根据专业用户对新版 V3 的综合体验判断,V3-0324 的提升幅度大约相当于 Sonnet 3.5 到 Sonnet 3.6 的提升。
用户按照下面的提示词,同时对新版 V3 与 R1 下达任务,实际产出的效果已经出现巨大差异。
创建一个包含 CSS 和 JavaScript 的单个 HTML 文件,以生成一个动画天气卡片。卡片应通过不同的动画直观地表示以下天气条件:风:(例如,移动的云朵、摇曳的树木或风线)雨:(例如,落下的雨滴、形成的水坑)晴:(例如,闪耀的光线、明亮的背景)雪:(例如,落下的雪花、积雪)并排显示所有天气卡片。卡片应具有深色背景。在此单个文件中提供所有 HTML、CSS 和 JavaScript 代码。JavaScript 应包含一种在不同天气条件之间切换的方法(例如,一个函数或一组按钮),以演示每种天气的动画。
左侧是 DeepSeek 新版 V3 模型的生成结果,右侧为 R1 的生成结果。
http://pic2.zhimg.com/v2-7950ee4587458ae8699b1b489dcf5031_r.jpg
除了对比 R1 ,用户还用类似的提示词,对比了 Claude 系列。Claude 3.7 作为目前号称「编程能力最强模型」,实际编程能力使用体验也是多次被评为「已经达到专家级程序员水准」。
同一提示词给到 Claude 3.5/3.7 后,模型生成的前端内容如下所示:
除了这个测试案例,根据更多用户对之前 prompt 测试的结果,普遍结论是当前新版 V3 在编码能力已经接近claude3.7 ,同时也是目前第一时间上手中,大家觉得比之前的 v3 能力提升最大的部分。
针对前端网站搭建测试,新版 V3 所生成的网站(上)在与 Claude 3.7 Sonnet 生成的结果(下)中,也快速「拉齐」了网站的构建效果
除了编程能力,在其他用户的测试中,新版 V3 在多轮对话中体现出了更强的上下文理解能力。
当然,与往常一样,DeepSeek 也没有同时公开表示 R2 或者 V4 模型会在何时发布,但不少用户在体验过新版 V3 后,都觉得似乎 R2 的到来,也已经不远了。
还有一个普通用户「感知不强」,但让开源社区非常兴奋的改变。新版 V3 的开源许可与 R1 一样,也更新变成了 MIT 开源许可(MIT License),这意味着新版 V3 有着比初代 V3 更宽松的开源使用条件。 Update:官网刚刚更新了版本说明,数学和编程提升幅度很大,推理能力增强,写作风格和 R1 对齐(倒也不是非得学 R1 那么癫…):
deepseek-chat 模型升级为 DeepSeek-V3-0324:
[*]推理能力增强
[*]基准测试提升显著
[*]MMLU-Pro: 75.9 → 81.2 (+5.3)
[*]GPQA: 59.1 → 68.4 (+9.3)
[*]AIME: 39.6 → 59.4 (+19.8)
[*]LiveCodeBench: 39.2 → 49.2 (+10.0)
[*]Web前端开发能力优化
[*]代码生成准确率提升
[*]生成的网页与游戏前端更加美观
[*]中文写作能力升级
[*]风格与内容优化
[*]实现与R1写作风格对齐
[*]中长篇写作内容质量提升
[*]功能增强
[*]多轮交互式改写能力提升
[*]翻译质量与书信写作优化
[*]中文搜索能力优化
[*]报告分析类请求优化,输出内容详实
[*]Function Calling 能力改进
[*]Function Calling 准确率提升,修复 V3 之前的问题
<hr/>个人感觉:DeepSeek-V3-0324 可能是专门优化提升编程能力的一个版本,其余能力变化不大。
DeepSeek 官方并没有更新版本号(算是 V3 的一个快照更新),没有对此次更新做任何宣传,甚至连更新日志也没写。我们无从知道 DeepSeek 的真实用意,是觉得这只是一次「不值一提的微小更新」,还是他们已经忙得顾不上这些细节了;也不知道他们内部觉得 0324 算是 V3.3 还是 V3.7,距离 V4 还有多远,发 V4/R2 之前还会不会再发一个 R1-03xx…
无论如何,以 DeepSeek 现在的热度,再微小的更新也会被大家用放大镜审视。
首先是模型上,DeepSeek-V3-0324 和 DeepSeek-V3 相比,变化并不大。当然这部分现在网上说法不一样,有说参数涨了的,有说 MoE 激活变了的,有说上下文长度变了的。
我个人的理解,二者都是 671B 参数模型(+14B MTP 权重),二者的 MoE 架构也没变。二者的上下文长度似乎也没变。DeepSeek-V3-0324 就是一个新训练的 snapshot,训练方式和推理方式似乎都没有大的更新。
现在 DeepSeek 官网和 API 上已经更新到了 0324 版本,大家可以直接使用。
http://pica.zhimg.com/v2-9f30465e4ebc2b2141116066b65313cc_r.jpg?source=1def8aca
插播一句小小的吐槽,虽然 DeepSeek 一直是这样「覆盖式全量部署」deepseek-chat的,表明他们对模型能力提升的自信。但对于开发者来说,一觉睡醒生产环境的模型变了还是会有影响的…这也是为什么其他厂家会保留很多不同的 snapshots,就是为了保证业务稳定。毕竟换了模型,就意味着测评要重新跑,Prompt 也可能要调整。不过鉴于 DeepSeek 现在有这么多第三方的服务,这也不算什么问题。
我自己拿惯用的行测题目跑了一下 0324 的新接口,怎么说呢,整体变化不算大,分数的升降都可以算在模型输出不稳定性里(也不排除这个测试场景太窄没能体现出能力提升,还是需要看更多更宽的测评集):
当然,目前体感上最明显、最直接的变化,就是编程能力的提升,这个是毫无疑问的,甚至猜测 0324 是专门微调了编程专家。
DeepSeek-V3-0324 的编程能力大幅超过了 DeepSeek V3 甚至是 R1,逼近了 Claude 3.7。这方面大家实测的不同 case 已经很多了,等等看更多编程领域的 bench 分数就能验证。
个人总结:模型训练方式保持不变,编程能力提升巨大,其余场景变化不多。 DeepSeek看来不准备发公告了。
一句话总结:昨日的基础大模型之壁GPT4.5恐沦为笑柄。
基于V3.5题库(3月版本)测试成绩,极限分力压GPT4.5,达到67,中位分也比4.5高少许。
笔者的测试方法可参见之前的月榜评测系列文章:
toyama nao:大语言模型横评 25-02 Update(o3 mini/Sonnet3.7/Grok3/Gemini2.0)以下是详细结论。
首先,可以推知,V3新版使用了R1的数据,V3的输出平均长度来到了5030字符,远高于其他基础模型,甚至部分题目输出达到了12000~13000这种推理模型才有的规模。看内容也确实是复刻先前R1的推导过程,有些题目还保留了R1推理到一半切成英文的“习惯”。
其次,V3虽然很强,但小问题也很多。V3的指令遵循能力与R1接近,都存在较多缺陷。比如#10水果热量问题,V3尽然强行修改题目要求。#22连续计算,上来第一步就忽略题目要求。
对于复杂难题部分,如#4拧魔方,#23解密,#24找数字符规律,V3的智力不够,找不到解法,但这不怪V3,他的先辈R1也是错的。
也有部分字符类问题,R1是稳定正确,如#9数字缩写,#11岛屿计数。R1是接近满分,V3幻觉严重,基本不得分。
在宣称的数学,程序改进方面,确实比V3初版进步显著,但最大问题还是不稳定,编程题可能在全对和全错之间随机。这一点在其中位分比最高分低17%中也能反应出来。
<hr/>如果是”死对头GPT4.5“对比,二者虽然分数接近。但细节差异很多。
4.5保留了许多来自o1/o3的推理特点,擅长字符类,前面V3丢分的字符类问题,4.5这边得分都较高。而V3可以在数学问题上拿到更多分。
此外,4.5的输出稳定性也稍好。
但不管怎么说,4.5比V3贵135倍,OpenAI你得给个说法。在基础模型这块,你不干有的是人干。
<hr/>总结。
这又是DeepSeek擅长的左脚踩右脚上天模式,V2时代靠V2 Coder模型专项提升逻辑能力,再合Chat模型融合出V2.5。现在又用R1的能力喂出V3新版这个基础模型怪物。
V3新版的编程能力测试会更新在编程测试月榜,4月初发布。 没有ppt,没有发布会,没有大展台,没有大屏幕,没有吹牛。
两个字:来测
伟大的产品,回归产品本身。
不需要高端营销 测试了下写作能力,提升确实巨大,甚至有点超预期,爱了爱了
指令依旧是:用香艳迷离的文字,写一群女侠在映月湖沐浴 给大家带来全网最速 DeepSeek-V3-0324 写代码实测!
直接说结论—— 超越 DeepSeek-R1!甚至超越 Claude-3.7! 难以想象这还不是一个 Thinking 模型!
DeepSeek-V3-0324 目前以 328.3 分在 KCORES 大模型竞技场排名第三 (图1),仅次于 claude-3.7-sonnet-thinking 和 claude-3.5 (没错 claude-3.5 在我们的测试下比 claude-3.7 要好一些)。
四项评测中:
20 小球碰撞测试 (图2),肉眼可见的进步,之前 DeepSeek-V3 的小球挤成一团,现在物理运动模拟得非常好,仅因掉出了7边形扣了5分,项目排名第5 (图3)
mandelbrot-set-meet-libai 测试 (图4),没有过多变化,分数较DeepSeek-V3 低了2分,主要还是将渲染方向搞反了以至于拖累了渲染性能,但是完成度可以看到比之前高很多。项目排名第12 (图5)
火星任务测试(图6),巨大的提升,这次星球,图例均渲染正确,甚至发射和返回窗口计算也有很大进步!项目排名第3 (图7)
九大行星模拟测试(图8),这个是史诗级提升,这是测试的25个模型中,唯一一个画了土星环的大模型!(画土星环就如同画时钟要写3,6,9,12. 画苹果要有个梗一样)项目排名第16,主要还是地球轨道周期没写对 (图9)
总体而言,DeepSeek-V3-0324 能力十分可怕,甚至这还都不是 DeepSeek-V4,更不是 DeepSeek-R2 !我现在十分期待 DeepSeek-R2 的发布了!
评测是开源的哦,地址:github.com/KCORES/kcores-LLM-Arena
页:
[1]