阿里万相大模型反超DeepSeek？AI大模型的护城河在哪里？

阿里万相大模型反超DeepSeek登榜首。开源社区Hugging Face最新榜单显示，开源仅6天的阿里万相大模型已反超DeepSeek-R1，登顶模型热榜、模型空间榜两大榜单，成为近期全球开源社区最受欢迎的大模型。

发表于 2025-4-1 10:01:59

万相和DeepSeek不是一个赛道，虽然都在huggingface屠榜，但万相是开源视频大模型，DeepSeek是大语言模型。
和万相一个赛道的，是腾讯混元视频大模型。
万相和混元都很受欢迎，消费级显卡（4090）就可以跑得起文生视频或图生视频。

发表于 2025-4-1 10:11:30

万相大模型是视频生成模型，DeepSeek是大语言模型，都不是一个层次的模型，何谈反超。。
而且，HuggingFace排行榜默认是按照趋势排名的：

如果按照喜欢量排序，DeepSeek R1还是第一：

发表于 2025-4-1 10:21:03

这两个根本不在一个赛道，不能作为对比，至于大模型的护城河，技术实力、低成本、低算力就是永远的王道。
唯一的感觉就算，DeepSeek赢是赢在深度思考上，万相大模型是视频生成模型，可以理解为“外国的Sora大模型，国内的可灵大模型——给它文字，它能给你生成一段视频。

对于日常对话而言，DeepSeek的R1大模型就已经是 ASI 了，再聪明也问不出来、没有感知了。Qwen想要弯道超车的话，还是得用好自己强大的 VL 整 Agent ，这也是阿里千问大模型的未来发展之一了
论开源deepseek更胜一筹！
deepseek的开源有较大的也有较小的，671B的这个模型规模开源不开源都无所谓了，能训练这个规模模型的基本都是大厂。
相反qwen一直坚持开源7b/32b这种小规模模型，反而是大部分普通用户或者小团队研发能用起来的模型
为什么是deepseek更值得胜利
其一，deepseek也开源了7B/32B的小规模模型。
其二，671B不是每个人都能安装，但很多公司可以安装，要不怎么会deepseek一开源韩国印度都喊着要做第三AI中心，因为安装671B对个人难点，对企业和国家很容易
除了deepSeek，其他国产人工智能都不怎么样，就好像装了个搜索引擎，不会深度思考。
关于创新
创新这东西，一人一条路。
有的公司走对了，有的公司走错了。
openai的o3跟r1一样，也带思维链。大致的方向差不多，但是训练出来的东西有好有坏。如果认定一个方向直接干就肯定能出结果，那不叫科研，那叫生产。
另外deepSeek的r1成本一点也不低。671b的全量，小公司都玩不起，你想怎么替代人力……
实际上对于公司来说，70b以下的蒸馏版，才是真正可用的模型。
所以我感觉这才是接下来所有公司的阿方向。
模型开源对普通人的作用就是给大家提供个新奇的娱乐工具，没什么生产力意义，小模型（10b级别）太傻，中模型（70b级别）硬件成本太高，大模型硬件成本更是高的不现实。

模型开源唯一利好的就是搞第三方部署卖token的公司，ds开源之前，这种公司主要的利润来源是二道贩子卖openai的token，本地部署的绘画ai用途太窄，需求太少，本地部署的语言类小模型太傻，连免费的豆包都竞争不过，这次deppSeek大模型，终于有个能卖得出去的本地部署产品了。
所以大模型你追我赶，阿里出来个万象大模型，百度出来个深度推理XL大模型和文心4.5大模型
相比紧接着就算腾讯出来个...
字节也发布第二版新一代xx大模型
google也出来个.....
难怪招聘网站不断地在招纳AI大模型人才，原来都在早早的开始布局了,前几天就是连造车的小米汽车雷军也以百万的年薪收纳了AI大模型人才
所以很多知友们都进入了这个AI大模型的赛道，据说他们如今AI方式就是根据知乎知学堂的AI大模型的在线视频学习的，由业界的大佬进行带队，对主流大模型如DeepSeek，阿里大模型，以及国外的GPT4o和grok3.4底层进行拆解，还可以学习到LLM大模型的训练方法、Prompt、Engineering+(交互工程)、利用LangChain+Fine-tunet大模型知识为我们工作和生活赋能，推荐大家体验：
你甭说，很多人刚学习完两周，就在求职的时候能应对一些主流大模型公司的一些面试回答，并且有很多知友们利用学到的知识成功转向大模型开发，顺利进入了大厂，真的是在职场生涯中一步青云。
两者的优势在于：
1、阿里千问的大模型的开源生态做的比较好
Qwen 好比“朋友圈”碾压任何家的，他的衍生模型已突破 10万+，开源和灵活，比如对于汽车，医疗，电商以及教育，华能定制中国功能，相比之下Deepseek目前才刚刚开始
2、成本优势
QwQ-32B 的参数仅 320亿，这个虽然是32B的但它的性能对标DeepSeek-R1大模型的6710亿参数，激活量370亿

因为DP还提通了更低的本地的大模型部署，在成本方面deepSeek略胜一筹。后面DeepSeek R1大模型如果经过精密超参搜索后，性能还能再上一个台阶。

和国内其他的大模型相比
但是DP和国内的其他大模型相比，豆包、混元，智谱、文小言、Kimi这些都一样，主要是搜集整理网上已有的资料，但是做不到DeepSeek那种深度思考。
同样是写文案，用豆包你还是要修修改改的，但是DeepSeek能直接进行使用，无需修改，并且逻辑线完整，这就是DP的最亮眼之处。

目前，qwen有一个deepseek无法追上的硬件数量优势，只能说看deepseek的算法优化能不能再整
出点惊喜了....
论格局，DeepSeek完爆阿里千问！
像阿里千问对成本收入过于斤斤计较了，这种精算心态必然难于领跑了，deepSeek的成功除了模型能力，关键还是开源低价，就算qwen新模型先出来，也没有deepSeek那种冲击
阿里opAI都做不出ds，大公司病，更多成本更更高营收，每个人时间都安排满，没人去思考路线是不是走错了，真的要这么高成本吗？成本高到这种程度的AI，还有什么替代人力的价值。
何为AI大模型的护城河？
就像终生学习是程序员的护城河，就和马拉松一样，你坚持跑就能一只领先早期的无人驾驶也被说科技泡沫。
国外Ilya的公司SSI从名字上看更注重的事Security和Alignment，没有更多信息，很有可能还是按照LLM的路子往前走，不能说这条路子不对，这条路应该是目前最安全的路，但是出现大的理论突破的概率也不大，像李飞飞的World Labs重点还是视觉方向，倒是的确更可能走出全新的路子。
不像在国外，马斯克有世界首富的财力可以加大算力，OpenAI又有业界大佬投资的加持，而国内就不一样了，靠的只有技术实力。

国内外的未来发展护城河就很明显了，可以围绕下面条道路走：
需要对LLM算法创新与模型架构优化
对LLM模型架构走优化方向，如DeepSeek
更需要数据质量与多样化
更需要低成本的与硬件适配与优化
我感觉，未来谁会更厉害，那就看谁能解决“大模型落地难”！阿里有生态优势，DeepSeek有技术潜力，这场“AI战争”才刚开始！

发表于 2025-4-1 10:33:29

视频生成模型跟文字生成模型压根就没法直接比较，但是大模型的护城河问题其实很值得讨论。大模型的护城河从来都不是推广费用多少，拉人头拉到月活用户多少，找了多少大V写软文，而是实打实技术驱动带来的用户体验决定的。大模型的这场竞赛，最终比拼的还是模型实力，而不是花多少钱做了推广，用户不傻，尤其是大模型的用户普遍不傻。
其实当初DeepSeek月活超越豆包就是一个大模型非常典型的模式。相对于豆包一直停留在快思考大模型，没有推出自己的慢思考推理模型。DeepSeek 直接免费让全世界用户用上了o1级别的推理模型，让很多之前对大模型不太熟悉或者不太认可的人，第一次感受到了推理模型的魅力。
用户们看着CoT推理过程，感受到test time scaling生成的高质量结果，大概率是会认可DeepSeek这种世界级sota模型的能力。所以从发布到1月28日，直接实现了指数增长，超过豆包，然后一路增长到3000万用户以上。所以不像有些大模型公司那样，铺天盖地的大V接推广，广告贴得像牛皮癣一样到处都是，最后什么都没留下，被技术进步的浪花冲洗得干干净净。
除了技术进步带来的优势，性价比对能否维持商业模式也非常重要，前两天DeepSeek在自己文章中介绍了优化后的V3/R1推理系统：如果所有 tokens 全部按照 DeepSeek R1 的定价计算，理论上一天的总收入为 $562,027，成本利润率 545%。
这个成本利润率，意味着咱们国内的开源大模型，不仅仅是从技术上将来逐渐会追赶上OpenAI，从性价比上看实际已经很有优势了，还有进一步打价格战的空间，将来必然会走上了类似于拼多多的路线，——即冲击国内大模型行业后，会再次靠着血海中拼杀出来的极致性价比路线，将来必然会进一步冲击海外全世界的大模型产业。
所以低价跟高利润率其实有时候并不矛盾，前提是你要有更极致的技术框架或者更碾压的商业模式。DeepSeek靠着这种低成本高利润的推理优化路线，无疑会在将来的R2等等系列模型中，继续保持高性价比优势。
（插一句，我个人其实挺期待R2系列模型能有多模态生成能力，具体可参考回答：有消息称 DeepSeek 计划提前发布 R2 模型，最初计划是五月份，你对该模型有哪些期待？）
另外，现在大模型追赶的时代，开源是异常重要的，是后来者居上的最佳路径。
国外最明显的例子就是Meta，通过llama开源模型，成功挤进了OpenAI、Google的大模型巨头圈，建立了最广泛的开发者圈子，不止是llama.cpp 等各种量化语言模型，还有llava 等 vision language模型，以及涉及到physical intelligence 的VLA模型，等等等等。
所以后来者，或者说追赶者，包括将来发布的大模型，都应该第一时间赶紧开源，获取最广泛的关注，尽可能吸引更多的开发者加入。技术迭代瞬息万变，如果你不开源，选择敝帚自珍，大概率很快就会被后一波浪花完全掩盖了。
真正在开源社区震惊开发者，并火爆出圈的，往往就是有对新技术的专注力，开源的氛围加上新技术Geek精神，对圈内开发者同行们往往有种特殊的魅力和吸引。特别是在开源模型达到闭源模型水平的时候，那些水平还不如开源模型的闭源模型，大概率会被用户放弃，而不仅仅限于开发者圈子。
大模型的发展路径其实很清晰，应该是实打实技术驱动带来的用户体验加上拥抱开源，同时靠极致优化带来的高性价比高利润率来维持商业模式。

相关回答及文章：
OpenAI 最新研究当前 AI 模型仍无法媲美人类程序员， AI 模型和人类程序员的区别是什么？
如何区分不同大模型、兼谈快思考和慢思考
为什么大家都在吹deepseek的GRPO？
OpenAI 发布最新论文提及 DeepSeek 和 Kimi 发现了 o1 秘密，这意味着什么？
为什么会有那么多大模型答错「9.9 和 9.11 哪个大」？
DeepSeek 思维链展示的是真实思考过程吗？还是为了更像人类思维而展示的呢？

发表于 2025-4-1 10:43:11

万相和DeepSeek，根本不在一个赛道！大模型的护城河，从来不是靠嗓门大。
一、比关公战秦琼还离谱——视频生成和语言模型根本不是一回事
“阿里万相大模型反超DeepSeek”，看到这标题我差点把咖啡喷在键盘上——这就像有人说“电冰箱打败了微波炉”，因为两者都能制冷。
万相是什么？它是个视频生成模型，你可以理解为“AI张艺谋”——给它一段文字，它能给你生成一段视频，比如让马斯克在故宫门口跳街舞，或者让柯基犬开着飞船登陆火星。
DeepSeek呢？它是大语言模型，相当于“AI钱钟书”——能写论文、解数学题、编代码，甚至陪你从量子力学聊到《红楼梦》。
举个栗子：

你让万相写一篇《论AI伦理》，它可能会生成一段“机器人举着抗议标语游行”的视频，但文案大概率是瞎编的。
你让DeepSeek拍视频？它会甩给你一份堪比诺兰剧本的分镜脚本，但一帧画面都渲染不出来。

所以说，这俩模型的差距，比杨贵妃和爱因斯坦的差距还大——一个拼的是视觉想象力，一个拼的是逻辑推理力，强行对比就像用体重秤量身高，纯粹是行为艺术。
二、大模型的护城河：技术宅的浪漫，从来不在热搜上
某些厂商总以为狂砸推广费、买热搜、请大V站台就能赢，但现实很骨感——大模型用户的智商税，可比直播间9块9包邮难收多了。真正的护城河，藏在四个维度里：
1. 技术硬核度：推理能力才是试金石
很多模型还停留在“快思考”阶段——像背了题库的考生，题目稍一变形就露馅。而DeepSeek的o1推理模型，是真正的“慢思考”大师。
2. 开源生态：代码才是最好的情书
开源模型是把设计图撒向全世界。看看DeepSeek开源周的操作就知道了，那是真正的源神。是全方位的贴心的开源。
看了开源周的六个东西就知道它多牛逼了。
就DeepSeek本身来说有下面3个特点：

R1推理引擎：让模型推理速度飙升3倍，成本暴降60%（相当于给法拉利换上新能源）
V3训练框架：自动识别模型犯的“中二病”，比如总把“量子纠缠”和情侣吵架瞎类比
思维可视化工具：把AI的黑箱思考变成《盗梦空间》式的分层梦境（开发者直呼“颅内高潮”）

随后5个核心代码放出的当天。
那情况简直了。
3. 性价比战争：技术红利才是真福利
某些厂商还在“烧钱换用户”，DeepSeek已经玩起了“技术印钞机”。他们公布的**V3/R1系统成本利润率545%**是什么概念？
假设生成《三体》全集文本：

某竞品：成本1万元，收入1.1万元 → 赚10% → 老板连夜砍项目
DeepSeek：成本1万元，收入6.45万元 → 赚5.45万 → 投资人跪求别降价

更可怕的是，他们文档里那个动态成本优化公式，这种极致抠门，才是技术派的浪漫。
这种把性能压榨到极致，才是技术宅男最牛逼的地方。
4. 用户忠诚度：靠推理过程圈粉，比饭圈更硬核
DeepSeek的3000万日活里，藏着无数“推理过程品鉴师”。有人专门收集模型解数学题的步骤，就为看它如何从“∵”“∴”的符号舞蹈中推导出答案。象我喜欢生成文言文。
用户粘性，靠的不是撒币营销，而是实打实的认知愉悦——就像学霸解题时旁边围观的迷弟迷妹，要的是思维的美感，不是结果的对错。
三、 DeepSeek封神之路：中国大模型的“农村包围城市”
DeepSeek就是大模型领域的拼多多——不是Low，而是用极致性价比撕开一道口子。
以开源周为例子，多少AI infra 欣喜若狂，又有部分整到破防。比如那个尤洋就是破防的人。
他破防估计是被人骂水平菜整到了破防。
DeepSeek的出现导致了开发者生态的野蛮生长。这种生态爆发力，闭源模型永远无法想象——就像当年Android开放系统后，各种山寨机也能做出惊艳功能。
四、 写在最后：当技术理想主义照进现实
2016年AlphaGo击败李世石时，有人说“中国AI要追十年”；2023年大模型爆发时，有人说“我们只能做应用层”。而DeepSeek用一次开源周，撕掉了所有标签。
DeepSeek不设技术壁垒，因为真正的壁垒永远在下一个突破里，突然想起钱学森说的“手上没有剑，和有剑不用是两回事”。
当某些大厂还在用“通稿+发布会”制造技术突破的幻影时，DeepSeek默默把代码扔进黑夜，等待它在大地上燃起星火。
这或许就是DeepSee最动人的叙事——没有天降紫微星，只有一群相信“算力平权”的技术信徒，在开源协议的扉页上写下：未来可期，与君共赴。
这就是DeepSeek的护城河。
期待DeepSeek 的R2。

发表于 2025-4-6 04:58:25

关于阿里万相大模型反超DeepSeek的现象，表明了其在AI技术领域的领先地位。大模型的护城河主要在于技术创新、算法优化以及数据积累。阿里万相大模型能够在短短时间内取得如此成绩，得益于其在这些方面的卓越表现。其成功登顶模型热榜，证明了其在全球开源社区中的广泛认可度和影响力。总的来说，阿里万相大模型展现了强大的实力和潜力，未来的发展前景值得期待。

发表于 2025-4-6 05:05:22

针对所提及的阿里万相大模型和DeepSeek之间的进展，确实阿里万相大模型展现了强劲实力，在短短时间内便取得显著成绩。关于AI大模型的护城河，其关键在于技术创新与持续优化。阿里万相大模型可能通过先进的算法、庞大的数据量以及高效的训练方式等技术手段实现了反超。这一成果也反映出团队的不懈努力和专业实力。但也需要持续关注技术发展和市场动态，以深入理解其护城河所在。总体来说，技术进步和创新是推动大模型领域发展的关键。

发表于 2025-4-6 05:10:23

关于阿里万相大模型反超DeepSeek的问题，近期确实引起了广泛关注。从专业角度来看，阿里万相大模型的出色表现，反映了其在人工智能领域的深厚技术实力和不断创新的决心。<br><br>AI大模型的护城河在于其技术的深度与广度、数据的规模与质量，以及团队的专业性和创新精神。这些因素共同构成了大模型的核心竞争力。<br><br>此次阿里万相大模型在开源社区的成功，证明了其在大模型技术方面的领先地位。同时，这也将激励更多企业和团队在AI领域加大投入，推动技术创新和行业发展。

阿里万相大模型反超DeepSeek？AI大模型的护城河在哪里？

本周热门