阿里万相大模型反超DeepSeek?AI大模型的护城河在哪里?

阿里万相大模型反超DeepSeek登榜首。开源社区Hugging Face最新榜单显示,开源仅6天的阿里万相大模型已反超DeepSeek-R1,登顶模型热榜、模型空间榜两大榜单,成为近期全球开源社区最受欢迎的大模型。
收藏者
0
被浏览
82

5 个回答

探索者 LV

发表于 4 天前

万相和DeepSeek不是一个赛道,虽然都在huggingface屠榜,但万相是开源视频大模型,DeepSeek是大语言模型。
和万相一个赛道的,是腾讯混元视频大模型。
万相和混元都很受欢迎,消费级显卡(4090)就可以跑得起文生视频或图生视频。

晴空聊基 LV

发表于 4 天前

万相大模型是视频生成模型,DeepSeek是大语言模型,都不是一个层次的模型,何谈反超。。
而且,HuggingFace排行榜默认是按照趋势排名的:

阿里万相大模型反超DeepSeek?AI大模型的护城河在哪里?-1.jpg

如果按照喜欢量排序,DeepSeek R1还是第一:

阿里万相大模型反超DeepSeek?AI大模型的护城河在哪里?-2.jpg

晓晓的波浪 LV

发表于 4 天前

这两个根本不在一个赛道,不能作为对比,至于大模型的护城河,技术实力、低成本、低算力就是永远的王道。
唯一的感觉就算,DeepSeek赢是赢在深度思考上,万相大模型是视频生成模型,可以理解为“外国的Sora大模型,国内的可灵大模型——给它文字,它能给你生成一段视频。

阿里万相大模型反超DeepSeek?AI大模型的护城河在哪里?-1.jpg

对于日常对话而言,DeepSeek的R1大模型就已经是 ASI 了,再聪明也问不出来、没有感知了。Qwen想要弯道超车的话,还是得用好自己强大的 VL 整 Agent ,这也是阿里千问大模型的未来发展之一了
论开源deepseek更胜一筹!
deepseek的开源有较大的也有较小的,671B的这个模型规模开源不开源都无所谓了,能训练这个规模模型的基本都是大厂。
相反qwen一直坚持开源7b/32b这种小规模模型,反而是大部分普通用户或者小团队研发能用起来的模型
为什么是deepseek更值得胜利
其一,deepseek也开源了7B/32B的小规模模型。
其二,671B不是每个人都能安装,但很多公司可以安装,要不怎么会deepseek一开源韩国印度都喊着要做第三AI中心,因为安装671B对个人难点,对企业和国家很容易
除了deepSeek,其他国产人工智能都不怎么样,就好像装了个搜索引擎,不会深度思考。
关于创新
创新这东西,一人一条路。
有的公司走对了,有的公司走错了。
openai的o3跟r1一样,也带思维链。大致的方向差不多,但是训练出来的东西有好有坏。如果认定一个方向直接干就肯定能出结果,那不叫科研,那叫生产。
另外deepSeek的r1成本一点也不低。671b的全量,小公司都玩不起,你想怎么替代人力……
实际上对于公司来说,70b以下的蒸馏版,才是真正可用的模型。
所以我感觉这才是接下来所有公司的阿方向。
模型开源对普通人的作用就是给大家提供个新奇的娱乐工具,没什么生产力意义,小模型(10b级别)太傻,中模型(70b级别)硬件成本太高,大模型硬件成本更是高的不现实。

阿里万相大模型反超DeepSeek?AI大模型的护城河在哪里?-2.jpg

模型开源唯一利好的就是搞第三方部署卖token的公司,ds开源之前,这种公司主要的利润来源是二道贩子卖openai的token,本地部署的绘画ai用途太窄,需求太少,本地部署的语言类小模型太傻,连免费的豆包都竞争不过,这次deppSeek大模型,终于有个能卖得出去的本地部署产品了。
所以大模型你追我赶,阿里出来个万象大模型,百度出来个深度推理XL大模型和文心4.5大模型
相比紧接着就算腾讯出来个...
字节也发布第二版新一代xx大模型
google也出来个.....
难怪招聘网站不断地在招纳AI大模型人才,原来都在早早的开始布局了,前几天就是连造车的小米汽车雷军也以百万的年薪收纳了AI大模型人才
所以很多知友们都进入了这个AI大模型的赛道,据说他们如今AI方式就是根据知乎知学堂的AI大模型的在线视频学习的,由业界的大佬进行带队,对主流大模型如DeepSeek,阿里大模型,以及国外的GPT4o和grok3.4底层进行拆解,还可以学习到LLM大模型的训练方法、Prompt、Engineering+(交互工程)、利用LangChain+Fine-tunet大模型知识为我们工作和生活赋能,推荐大家体验:
你甭说,很多人刚学习完两周,就在求职的时候能应对一些主流大模型公司的一些面试回答,并且有很多知友们利用学到的知识成功转向大模型开发,顺利进入了大厂,真的是在职场生涯中一步青云。
两者的优势在于:
1、阿里千问的大模型的开源生态做的比较好
Qwen 好比“朋友圈”碾压任何家的,他的衍生模型已突破 10万+,开源和灵活,比如对于汽车,医疗,电商以及教育,华能定制中国功能,相比之下Deepseek目前才刚刚开始
2、成本优势
QwQ-32B 的参数仅 320亿,这个虽然是32B的但它的性能对标DeepSeek-R1大模型的6710亿参数,激活量370亿

阿里万相大模型反超DeepSeek?AI大模型的护城河在哪里?-3.jpg

因为DP还提通了更低的本地的大模型部署,在成本方面deepSeek略胜一筹。后面DeepSeek R1大模型如果经过精密超参搜索后,性能还能再上一个台阶。

和国内其他的大模型相比
但是DP和国内的其他大模型相比,豆包、混元,智谱、文小言、Kimi这些都一样,主要是搜集整理网上已有的资料,但是做不到DeepSeek那种深度思考。
同样是写文案,用豆包你还是要修修改改的,但是DeepSeek能直接进行使用,无需修改,并且逻辑线完整,这就是DP的最亮眼之处。

阿里万相大模型反超DeepSeek?AI大模型的护城河在哪里?-4.jpg

目前,qwen有一个deepseek无法追上的硬件数量优势,只能说看deepseek的算法优化能不能再整
出点惊喜了....
论格局,DeepSeek完爆阿里千问!
像阿里千问对成本收入过于斤斤计较了,这种精算心态必然难于领跑了,deepSeek的成功除了模型能力,关键还是开源低价,就算qwen新模型先出来,也没有deepSeek那种冲击
阿里opAI都做不出ds,大公司病,更多成本更更高营收,每个人时间都安排满,没人去思考路线是不是走错了,真的要这么高成本吗?成本高到这种程度的AI,还有什么替代人力的价值。
何为AI大模型的护城河?
就像终生学习是程序员的护城河,就和马拉松一样,你坚持跑就能一只领先早期的无人驾驶也被说科技泡沫。
国外Ilya的公司SSI从名字上看更注重的事Security和Alignment,没有更多信息,很有可能还是按照LLM的路子往前走,不能说这条路子不对,这条路应该是目前最安全的路,但是出现大的理论突破的概率也不大,像李飞飞的World Labs重点还是视觉方向,倒是的确更可能走出全新的路子。
不像在国外,马斯克有世界首富的财力可以加大算力,OpenAI又有业界大佬投资的加持,而国内就不一样了,靠的只有技术实力。

阿里万相大模型反超DeepSeek?AI大模型的护城河在哪里?-5.jpg

国内外的未来发展护城河就很明显了,可以围绕下面条道路走:
需要对LLM算法创新与模型架构优化
对LLM模型架构走优化方向,如DeepSeek
更需要数据质量与多样化
更需要低成本的与硬件适配与优化
我感觉,未来谁会更厉害,那就看谁能解决“大模型落地难”!阿里有生态优势,DeepSeek有技术潜力,这场“AI战争”才刚开始!

蔓你是谁 LV

发表于 4 天前

视频生成模型跟文字生成模型压根就没法直接比较,但是大模型的护城河问题其实很值得讨论。大模型的护城河从来都不是推广费用多少,拉人头拉到月活用户多少,找了多少大V写软文,而是实打实技术驱动带来的用户体验决定的。大模型的这场竞赛,最终比拼的还是模型实力,而不是花多少钱做了推广,用户不傻,尤其是大模型的用户普遍不傻。
其实当初DeepSeek月活超越豆包就是一个大模型非常典型的模式。相对于豆包一直停留在快思考大模型,没有推出自己的慢思考推理模型。DeepSeek 直接免费让全世界用户用上了o1级别的推理模型,让很多之前对大模型不太熟悉或者不太认可的人,第一次感受到了推理模型的魅力。
用户们看着CoT推理过程,感受到test time scaling生成的高质量结果,大概率是会认可DeepSeek这种世界级sota模型的能力。所以从发布到1月28日,直接实现了指数增长,超过豆包,然后一路增长到3000万用户以上。所以不像有些大模型公司那样,铺天盖地的大V接推广,广告贴得像牛皮癣一样到处都是,最后什么都没留下,被技术进步的浪花冲洗得干干净净。
除了技术进步带来的优势,性价比对能否维持商业模式也非常重要,前两天DeepSeek在自己文章中介绍了优化后的V3/R1推理系统:如果所有 tokens 全部按照 DeepSeek R1 的定价计算,理论上一天的总收入为 $562,027,成本利润率 545%。
这个成本利润率,意味着咱们国内的开源大模型,不仅仅是从技术上将来逐渐会追赶上OpenAI,从性价比上看实际已经很有优势了,还有进一步打价格战的空间,将来必然会走上了类似于拼多多的路线,——即冲击国内大模型行业后,会再次靠着血海中拼杀出来的极致性价比路线,将来必然会进一步冲击海外全世界的大模型产业。
所以低价跟高利润率其实有时候并不矛盾,前提是你要有更极致的技术框架或者更碾压的商业模式。DeepSeek靠着这种低成本高利润的推理优化路线,无疑会在将来的R2等等系列模型中,继续保持高性价比优势。
(插一句,我个人其实挺期待R2系列模型能有多模态生成能力,具体可参考回答:有消息称 DeepSeek 计划提前发布 R2 模型,最初计划是五月份,你对该模型有哪些期待?)
另外,现在大模型追赶的时代,开源是异常重要的,是后来者居上的最佳路径。
国外最明显的例子就是Meta,通过llama开源模型,成功挤进了OpenAI、Google的大模型巨头圈,建立了最广泛的开发者圈子,不止是llama.cpp 等各种量化语言模型,还有llava 等 vision language模型,以及涉及到physical intelligence 的VLA模型,等等等等。
所以后来者,或者说追赶者,包括将来发布的大模型,都应该第一时间赶紧开源,获取最广泛的关注,尽可能吸引更多的开发者加入。技术迭代瞬息万变,如果你不开源,选择敝帚自珍,大概率很快就会被后一波浪花完全掩盖了。
真正在开源社区震惊开发者,并火爆出圈的,往往就是有对新技术的专注力,开源的氛围加上新技术Geek精神,对圈内开发者同行们往往有种特殊的魅力和吸引。特别是在开源模型达到闭源模型水平的时候,那些水平还不如开源模型的闭源模型,大概率会被用户放弃,而不仅仅限于开发者圈子。
大模型的发展路径其实很清晰,应该是实打实技术驱动带来的用户体验加上拥抱开源,同时靠极致优化带来的高性价比高利润率来维持商业模式。


相关回答及文章:
OpenAI 最新研究当前 AI 模型仍无法媲美人类程序员, AI 模型和人类程序员的区别是什么?
如何区分不同大模型、兼谈快思考和慢思考
为什么大家都在吹deepseek的GRPO?
OpenAI 发布最新论文提及 DeepSeek 和 Kimi 发现了 o1 秘密,这意味着什么?
为什么会有那么多大模型答错「9.9 和 9.11 哪个大」?
DeepSeek 思维链展示的是真实思考过程吗?还是为了更像人类思维而展示的呢?

acff00 LV

发表于 4 天前

万相和DeepSeek,根本不在一个赛道!大模型的护城河,从来不是靠嗓门大。
一、 比关公战秦琼还离谱——视频生成和语言模型根本不是一回事
“阿里万相大模型反超DeepSeek”,看到这标题我差点把咖啡喷在键盘上——这就像有人说“电冰箱打败了微波炉”,因为两者都能制冷。
万相是什么?它是个视频生成模型,你可以理解为“AI张艺谋”——给它一段文字,它能给你生成一段视频,比如让马斯克在故宫门口跳街舞,或者让柯基犬开着飞船登陆火星。
DeepSeek呢?它是大语言模型,相当于“AI钱钟书”——能写论文、解数学题、编代码,甚至陪你从量子力学聊到《红楼梦》。
举个栗子 :

  • 你让万相写一篇《论AI伦理》,它可能会生成一段“机器人举着抗议标语游行”的视频,但文案大概率是瞎编的。
  • 你让DeepSeek拍视频?它会甩给你一份堪比诺兰剧本的分镜脚本,但一帧画面都渲染不出来。
所以说,这俩模型的差距,比杨贵妃和爱因斯坦的差距还大——一个拼的是视觉想象力,一个拼的是逻辑推理力,强行对比就像用体重秤量身高,纯粹是行为艺术。
二、 大模型的护城河:技术宅的浪漫,从来不在热搜上
某些厂商总以为狂砸推广费、买热搜、请大V站台就能赢,但现实很骨感——大模型用户的智商税,可比直播间9块9包邮难收多了。真正的护城河,藏在四个维度里:
1. 技术硬核度:推理能力才是试金石
很多模型还停留在“快思考”阶段——像背了题库的考生,题目稍一变形就露馅。而DeepSeek的o1推理模型,是真正的“慢思考”大师。
2. 开源生态:代码才是最好的情书
开源模型是把设计图撒向全世界。看看DeepSeek开源周的操作就知道了,那是真正的源神。是全方位的贴心的开源。
看了开源周的六个东西就知道它多牛逼了。
就DeepSeek本身来说有下面3个特点:

  • R1推理引擎:让模型推理速度飙升3倍,成本暴降60%(相当于给法拉利换上新能源)
  • V3训练框架:自动识别模型犯的“中二病”,比如总把“量子纠缠”和情侣吵架瞎类比
  • 思维可视化工具:把AI的黑箱思考变成《盗梦空间》式的分层梦境(开发者直呼“颅内高潮”)
随后5个核心代码放出的当天。
那情况简直了。
3. 性价比战争:技术红利才是真福利
某些厂商还在“烧钱换用户”,DeepSeek已经玩起了“技术印钞机”。他们公布的**V3/R1系统成本利润率545%**是什么概念?
假设生成《三体》全集文本:

  • 某竞品:成本1万元,收入1.1万元 → 赚10% → 老板连夜砍项目
  • DeepSeek:成本1万元,收入6.45万元 → 赚5.45万 → 投资人跪求别降价
更可怕的是,他们文档里那个动态成本优化公式,这种极致抠门,才是技术派的浪漫。
这种把性能压榨到极致,才是技术宅男最牛逼的地方。
4. 用户忠诚度:靠推理过程圈粉,比饭圈更硬核
DeepSeek的3000万日活里,藏着无数“推理过程品鉴师”。有人专门收集模型解数学题的步骤,就为看它如何从“∵”“∴”的符号舞蹈中推导出答案。象我喜欢生成文言文。
用户粘性,靠的不是撒币营销,而是实打实的认知愉悦——就像学霸解题时旁边围观的迷弟迷妹,要的是思维的美感,不是结果的对错。
三、 DeepSeek封神之路:中国大模型的“农村包围城市”
DeepSeek就是大模型领域的拼多多——不是Low,而是用极致性价比撕开一道口子。
以开源周为例子,多少AI infra 欣喜若狂,又有部分整到破防。比如那个尤洋就是破防的人。
他破防估计是被人骂水平菜整到了破防。
DeepSeek的出现导致了开发者生态的野蛮生长。这种生态爆发力,闭源模型永远无法想象——就像当年Android开放系统后,各种山寨机也能做出惊艳功能。
四、 写在最后:当技术理想主义照进现实
2016年AlphaGo击败李世石时,有人说“中国AI要追十年”;2023年大模型爆发时,有人说“我们只能做应用层”。而DeepSeek用一次开源周,撕掉了所有标签。
DeepSeek不设技术壁垒,因为真正的壁垒永远在下一个突破里,突然想起钱学森说的“手上没有剑,和有剑不用是两回事”。
当某些大厂还在用“通稿+发布会”制造技术突破的幻影时,DeepSeek默默把代码扔进黑夜,等待它在大地上燃起星火。
这或许就是DeepSee最动人的叙事——没有天降紫微星,只有一群相信“算力平权”的技术信徒,在开源协议的扉页上写下:未来可期,与君共赴。
这就是DeepSeek的护城河。
期待DeepSeek 的R2。

您需要登录后才可以回帖 登录 | 立即注册