如何评价DeepSeek刚刚发布的DeepSeek-V3-0324更新,大家觉得用起来有哪些提升?

3月24日晚,DeepSeek发布了模型更新——DeepSeek-V3-0324。目前,DeepSeek-V3-0324已在Hugging Face上开源,并迅速登上了Trending榜(现列第4):

如何评价DeepSeek刚刚发布的DeepSeek-V3-0324更新,大家觉得用起来有哪些提升?-1.jpg


添加图片注释,不超过 140 字(可选)

开源地址:https://huggingface.co/deepseek-ai/DeepSeek-V3-0324
收藏者
0
被浏览
80

5 个回答

aixn LV

发表于 2025-4-27 16:27:45

长文本生成能力更强,输出内容质量提升,深度研究能力让人惊喜!
一、研报实测
尝试用Deepseek-V3-0324对上市公司公开披露的年报进行分析,很简单的指令提示词(“针对A股上市公司XXX 2023年的年报,请从股东的角度出发,对其财务报表进行分析,提出关注点和风险点,并给出分析意见”),结果Deepseek-V3-0324给我输出了上万字的研究报告,具体内容太长没法展示,第一段概述如下:
“报告首先概述公司基本业务结构与近期业绩表现,随后深入分析盈利能力、现金流状况、资产负债结构、营运效率及成长性等关键财务维度,揭示公司经营中的亮点与潜在风险。在此基础上,我们从股东回报、投资价值角度提出专业分析意见,并针对不同风险偏好投资者给出差异化的投资建议。本分析旨在帮助现有及潜在股东准确把握上市公司的财务健康状况、核心竞争优势及未来发展趋势,为投资决策提供数据支持和逻辑参考。”
输出内容观点清晰,论证和引用详尽,质量我觉得不输券商研报。其中会计科目和主要财务指标的分析十分细致,这质量和深度着实让我非常惊喜!
二、对比
同样的问题,Deepseek如果点开深度思考,只会提纲式地输出“核心财务指标分析、需关注的核心风险点、决策建议、总结”四个部分,内容比较简练,深度不够,在实际工作中只能用于启发性思考,后面还得自己进一步加工研究。
使用Qwen2.5-Max的普通模式和深度思考模式,输出结果跟Deepseek R1类似,完全达不到Deepseek-V3-0324这种深度和长度。
三、小结
从前觉得Deepseek写报告还差点意思,启发思考、列列提纲还行。现在不敢这么说了,Deepseek-V3-0324已经能实现高质量的长文本输出,可以在网文创作,报告撰写、研究分析等领域实际应用。
当然,最期待的还是Deepseek能推出更强的小参数蒸馏模型,适配本地部署需求~

abc12 LV

发表于 2025-4-27 16:38:45

3月24日晚,DeepSeek发布了模型更新——DeepSeek-V3-0324。目前,DeepSeek-V3-0324已在Hugging Face上开源,并迅速登上了Trending榜。
我也是刚刚才看到这个消息,DeepSeek-V3-0324这个版本的模型的发布给人的不仅仅是惊喜,更多的是希望。DeepSeek-V3-0324虽然仅仅是一个小版本的升级,但是DeepSeek-V3-0324背后蕴含的潜力是无穷无尽的。
这就要说回到中美的博弈,美国并没有能力抹杀DeepSeek-V3-0324与襁褓之中,反倒是生机勃勃的茁壮成长。可以说DeepSeek-V3-0324的发布才真的是狠狠打了美国人的脸。

xiongdamao LV

发表于 2025-4-27 16:51:13

前言

昨日(3月24日)深夜,DeepSeek 以"小版本升级"的名义悄然推出V3-0324模型。
尽管官方未高调宣传,但6850亿参数的规模、接近Claude 3.7的编程能力以及更宽松的MIT开源协议,让这次更新成为AI开源社区的现象级事件。
白天有点事情,没有第一时间测试,这就补上。
更新内容


  • 编程能力:前端代码生成质量达Claude 3.7同级,可完整实现复杂功能模块开发。
  • 数学推理:突破高等数学全领域解题,实现从计算到逻辑推理的跨越式升级。
  • 对话交互:上下文窗口从64K扩展至128K,支持更复杂的多轮对话。
  • 响应速度:新增快速响应模式,简单任务处理效率提升40%+且API无缝兼容。
  • 免费商用:采用MIT协议,允许商业场景免费使用,降低企业集成门槛。
  • 风格调整:输出风格转向技术化、专业化,弱化拟人化表达。
提升评测

相比较DeepSeek V3,DeepSeek V3-0324在多个评测指标中都有显著提升:

  • MMLU-Pro:从75.9提升至81.2(+5.3)
  • GPQA:从59.1跃升至68.4(+9.3)
  • AIME:实现最大幅度提升,从39.6飙升至59.4(+19.8)
  • LiveCodeBench:从39.2进步到49.2(+10.0)
DataLearnerAI 的大模型官方评测排行榜可以看出,明显超过 Claude 3.5。


数据来源:https://www.datalearner.com/ai-models/ai-benchmarks-tests/benchmarks-for-all
实测

挑选了两个之前分享过的场景做个对比。
SVG生成

昨天刚分享了 Claude 3.7 生成SVG的效果,今天咱就对比下 DeepSeek V3-0324 效果如何。
Claude 3.7


V3-0324


V3

如何评价DeepSeek刚刚发布的DeepSeek-V3-0324更新,大家觉得用起来有哪些提升?-4.jpg

虽然有些细节没有到位,但整体效果其实已经非常可以了。
毕竟为了对比,我是一字未改的采用了 Claude 3.7 的提示词(针对Claude优化过的),如果针对 DeepSeek V3 稍微优化下,估计能够更加完善。
前端界面生成

DeepSeek V3-0324这次专门提到了前端效果生成提升,那我们也测试下。
Claude 3.7


V3-0324

如何评价DeepSeek刚刚发布的DeepSeek-V3-0324更新,大家觉得用起来有哪些提升?-6.jpg

确实很好,可以说和 Claude 3.7 不相上下。
V3 之前版本的效果就不放了,差距有点大。
V3-0324 免费 API

之前 DeepSeek 一直使用的硅基流动 API,但是今天尚未上线 V3-0324,为了给大家看效果,就去 DeepSeek 官网充值了。
结果,刚充值完,我就看到了一篇分享,OpenRouter 上V3-0324 免费,我...
分享给大家,大家可以免费体验去。
https://openrouter.ai/deepseek/deepseek-chat-v3-0324:free

如何评价DeepSeek刚刚发布的DeepSeek-V3-0324更新,大家觉得用起来有哪些提升?-7.jpg

总结

通过实测,我们看到了 DeepSeek V3-0324 在生成SVG以及前端界面方面的表现确实很不错,平均下来也是Claude 3.6+ 的水平了。
甚至,考虑到我 V3 使用经验不够,它可能还有提升空间。
让我们期待下吧,希望 DeepSeek 未来持续进步,完全替代国外的模型,也让我们可以毫无留恋地转到完整的国内生态中。
加油~

fans2006 LV

发表于 2025-4-27 17:05:39

DeepSeek于2025年3月24日晚间低调发布的V3-0324模型更新,虽然只是小版本迭代,但实际使用体验中展现出多维度提升。目前,DeepSeek-V3-0324已在Hugging Face上开源,并迅速登上了Trending榜(现列第4):


简单测试

简单测试了几个问题,效果不错:
6.9和6.11哪个大?
要比较 (6.9) 和 (6.11) 的大小,可以按照以下步骤进行: 统一小数位数: 为了方便比较,将两个数的小数位数统一。将 (6.9) 写成 (6.90)。 [ 6.9 = 6.90 ] 逐位比较整数部分:两数的整数部分都是 (6),相同。 十分位:比较 (6.90) 和 (6.11) 的十分位数字: (6.90) 的十分位是 (9)。 (6.11) 的十分位是 (1)。 (9 > 1),因此 (6.90 > 6.11)。 结论: [ \boxed{6.9 > 6.11} ]
Strawberry有几个r?
单词 "strawberry" 中有 3个字母 r,具体分布如下: strawberry 第一个 rstraw 第二个 rstraw 第三个 rberry 所以答案是 3
Strawberry有几个r?这个问题回答的很惊艳。 以前的DeepSeek-V3如果不用COT经常答错这个问题。
而且这次没有用非常复杂的思考就实现了跨Token的分析(可以看到Straw和Berry还是分成了2个Token)。
模拟太阳系运行情况

Prompt: 用网页展示太阳系的运行动画,尽量精美


性能提升:

新版模型在代码生成领域进步尤为突出。根据用户对比测试,其前端开发能力(如生成包含CSS、JavaScript的动画天气卡片代码)已接近甚至部分场景达到Claude 3.7的水平,尤其是在JavaScript、TypeScript等语言的代码补全和错误检测上表现亮眼。此外,数学推理能力也有所增强,解题逻辑更接近专业推理模型。
现在来看各方评价也都集中在编码上:

如何评价DeepSeek刚刚发布的DeepSeek-V3-0324更新,大家觉得用起来有哪些提升?-3.jpg


如何评价DeepSeek刚刚发布的DeepSeek-V3-0324更新,大家觉得用起来有哪些提升?-4.jpg


如何评价DeepSeek刚刚发布的DeepSeek-V3-0324更新,大家觉得用起来有哪些提升?-5.jpg



一些想法

我使用了一段时间发现DeepSeek-V3-0324的确是在编程上有比较大的提升,感觉这次提升首先是是编码能力比较容易通过强化学习进行提升。其次是现在各种智能体应用对编码能力要求越来越高。
DeepSeek-V3-0324的升级方向精准切中了开发者对效率与开放性的双重需求,既巩固了其在开源模型中的竞争力,也为后续大版本迭代奠定了技术基础。
若持续保持这种升级效率,DeepSeek有望在AI工具赛道上占据更重要的生态位。

vfi10863 LV

发表于 2025-4-27 17:18:11

非常惊喜!可能是大模型历史上进步最大的一次“小”升级。
代码方面

写了一个天气卡片,三百多行,效果如下:



动态天气卡片

说代码能力打平claude 3.7 sonnet 不为过。
文本创作方面

首先是诗歌


先来一首通俗的
  1. <如果云朵可以剪裁>
  2. 如果云朵可以剪裁,
  3. 我会裁下一片柔软的纯白,
  4. 缝进你失眠的枕头,
  5. 让梦也轻盈如羽毛。
  6. 如果云朵可以剪裁,
  7. 我要折一只流浪的船,
  8. 放进你窗边的风里,
  9. 载走所有沉甸甸的叹息。
  10. 而剩下的边角料,
  11. 就散成一场细雪吧——
  12. 当你抬头时,
  13. 天空正轻轻
  14. 为你落一场私人的浪漫。
复制代码
换个风格
  1. 《内向者的星图》
  2. 我们总在测量深渊的间距,
  3. 用目光,用突然静止的琴弦。
  4. 当整个宇宙倾向灯火通明的夜晚,
  5. 你收集每一盏被拒绝的光。
  6. 像守夜人清点更漏里的黑暗,
  7. 把碎月缀连成倔强的星座。
  8. 所有未说出的对白,
  9. 在喉间结晶成糖。
  10. 我见过你眼里的雨季——
  11. 那么多迷路的云挤在窗棂,
  12. 等待被写成湿润的告解。
  13. 而你的沉默长出绒毛,
  14. 轻轻擦拭这世界的尖锐。
  15. 要允许光以暗的方式存在,
  16. 像古籍里未装订的章节,
  17. 像雪在焚毁时,
  18. 依然保持雪的形态。
复制代码
童趣的也可以
  1. 《贪吃的橡皮泥》
  2. 我的红橡皮泥
  3. 偷偷吃掉了
  4. 黄橡皮泥
  5. 结果第二天
  6. 胀成了
  7. 圆鼓鼓的橙太阳
复制代码
风格可控,效果惊人,现代诗圈传来噩耗!
长文本创作

相比R1提升了文本最大输出长度,幻觉减少,中文能力这一块已经无出其右了:
来篇心理学公众号,前方高能
<hr/>"我们可以互放光芒,却无法互相取暖":当代人际关系的新型困境

凌晨两点的咖啡馆里,苏芮和她的创业伙伴刚结束一场酣畅淋漓的头脑风暴。他们能精准接住对方抛出的每个创意,却在谈及各自婚姻危机时默契地保持沉默。这种奇特的关系模式,正在成为当代人际交往中越来越普遍的困境——我们找到了能互相激发思想火花的人,却发现彼此的情感世界依然寒冷。
一、三种"照亮不取暖"的现代关系标本

案例A:知识共鸣型
林教授与学术搭档合作发表了17篇论文,他们能在专业领域进行令人惊叹的思维碰撞。但当林教授母亲病危时,他宁愿打心理热线也没有向搭档倾诉。"我们之间有种无形的协议,"林教授说,"只交换思想,不暴露脆弱。"
案例B:兴趣同盟型
摄影俱乐部的王颖和小周被称为"最佳取景搭档",她们能为了等一束完美光线在雪山守候三天。然而当王颖遭遇裁员,小周只是礼貌性地发了个安慰表情包。"我们分享取景框里的一切,除了框外的人生。"王颖苦笑道。
案例C:事业协同型
创业公司的两位合伙人创造了业界瞩目的增长奇迹,他们的工作默契被投资人称为"黄金组合"。但在一次融资庆功宴后,两人各自叫代驾回到空荡荡的公寓。"我们像两台精密配合的仪器,"其中一位坦言,"但仪器不需要温暖。"
这些关系都符合心理学家罗伯特·韦斯提出的"社会孤独"特征——尽管存在功能性连接,却缺乏情感依恋所需的六个关键要素:安全感、认同感、信赖感、责任感、亲密感和承诺感。
二、照亮与取暖:大脑处理的两套系统

神经科学研究显示,智力共鸣情感支持激活的是不同的大脑网络。当我们进行思想交流时,前额叶皮层和颞叶区域活跃;而情感连接则更多涉及边缘系统、前扣带回和脑岛区域。
这解释了为什么有些人能与你畅谈存在主义哲学,却在你想靠肩哭泣时手足无措。社会心理学家雪莉·特克勒称之为"连接的分化危机"——数字化时代使我们更擅长处理高密度的信息交换,却逐渐丧失了处理情感复杂性的能力。
临床心理学家朱迪斯·赫尔曼指出:"真正的心理温暖需要三个条件:持续的关注、情感的协调和共同的脆弱性。"而许多现代关系恰恰停留在安全距离内,形成了心理学家戴维·里肯所说的"荧光关系"——明亮但不发热的人际连接。
三、为什么我们停在了安全距离?五大心理成因


  • 防御性认知策略
    依恋理论显示,回避型依恋者会无意识地将关系限制在认知层面,用智力活动替代情感暴露。这就像建造精美的玻璃幕墙——允许光线穿透,却阻挡温度传递。
  • 时间贫困综合征
    现代社会的时间碎片化迫使我们发展出"模块化社交":将不同需求分配给不同关系。心理学家称之为"人际功能外包",这导致单一关系难以全面发展。
  • 虚拟社交的后遗症
    长期线上交流重塑了我们的大脑,斯坦福大学研究发现,频繁的碎片化社交会削弱共情神经回路的敏感性,使人更倾向保持浅层互动。
  • 成就导向的异化
    当关系被绩效化(如学术产出、事业成就),人们会自发抑制可能影响"合作效率"的情感因素。这形成了社会学家霍克希尔德所说的"情感资本主义"现象。
  • 创伤后关系图式
    对曾经历情感伤害的个体,大脑的杏仁核会过度警觉,导致他们主动创造"安全但不满足"的关系模式。这是一种心理防御的过度补偿。
四、八个警示信号:你的关系是否失衡?

根据临床心理学家约翰·戈特曼的关系评估体系,以下指标出现4个以上时,提示关系停留在"照亮不取暖"状态:

  • 你们90%的交流围绕外部事物而非内心感受
  • 在对方面前哭泣会让你感到不自在
  • 不知道彼此最近的心理困扰
  • 危机时刻不会第一时间想到对方
  • 从未见过对方"不合逻辑"的情绪化状态
  • 避免讨论关系本身的未来走向
  • 身体接触仅限于社交礼仪范畴
  • 你们的共同朋友说不清你们到底多亲密
五、破局之道:从相互照亮到彼此温暖的四种路径

1. 渐进式自我暴露技术
心理学家阿瑟·阿伦的"36个问题"实验表明,有结构的互相暴露能快速建立亲密感。可以尝试每周增加5%的"非功能性交流",比如分享一个童年记忆或当前焦虑。
2. 多维度关系孵化
刻意创造超越单一场景的互动:工作伙伴尝试共同烹饪,书友一起徒步旅行。环境多样性会激活关系中休眠的维度。
3. 情感能力专项训练
通过正念练习提升情绪颗粒度,学习"情感标记"技术(如:"你现在的感受是...因为..."),这些能增强关系的保暖性。
4. 关系再评估仪式
每季度进行一次"关系审计":各自写下三个被满足和三个未被满足的需求,然后寻找交集点。这能避免关系陷入自动导航状态。
六、温暖而不灼伤:当代亲密关系的新平衡

法国哲学家加缪在《西西弗神话》中写道:"在冬天的深处,我终于明白,我身上有一个不可战胜的夏天。"或许健康的关系不该是燃烧自己温暖他人,而是像地热系统那样——保持恒定的温度交换,不过度索取也不完全封闭。
心理学家埃里克·弗洛姆在《逃避自由》中的洞见至今仍发人深省:"现代人最深刻的孤独不在于缺少陪伴,而在于那些未能实现其可能性的关系。"当我们学会在保持自我完整性的同时向他人敞开,那些曾只能互放光芒的关系,终将也能成为彼此心灵的庇护所。
在这个连接过剩却温暖稀缺的时代,或许我们需要的不是更多关系,而是更有能力承载脆弱性的相遇。正如精神分析师温尼科特所说:"健康的关系不是两个完美个体的互动,而是两个真实之人的相互容纳——包括彼此的不完美与需要。"
<hr/>综合评价:

如果你是中文母语者,一个不写代码的普通用户,新版的V3加上原来的R1就是目前最好的大模型。没有之一。
如果不是中文母语者,或者你是程序员或者科研工作者,有代码和数学方面的需求。V3是目前所有大模型中TOP3的选择

您需要登录后才可以回帖 登录 | 立即注册