为什么同为开源追平 OpenAI，Qwen 没有像 DeepSeek 一样出圈？

Qwen简介

Qwen是由阿里云开发的一系列大型语言模型（LLMs），旨在满足多样化的自然语言处理需求。
昨晚发布的Qwen2.5-VL，全面领先GPT-4o

为什么同为开源追平 OpenAI，Qwen 没有像 DeepSeek 一样出圈？-1.jpg

此前发布的Qwen2.5-Coder-32B-Instruct能超越更大规模的DeepSeek Coder V2

为什么同为开源追平 OpenAI，Qwen 没有像 DeepSeek 一样出圈？-2.jpg

还有首款开源推理模型QWQ

为什么同为开源追平 OpenAI，Qwen 没有像 DeepSeek 一样出圈？-3.jpg

发表于 2025-4-8 12:43:37

刚刚吴恩达在推特上发表了对于近期非常火的DeepSeek的评价，其中一段是这样的。

China is catching up to the U.S. in generative AI. When ChatGPT was launched in November 2022, the U.S. was significantly ahead of China in generative AI. Impressions change slowly, and so even recently I heard friends in both the U.S. and China say they thought China was behind. But in reality, this gap has rapidly eroded over the past two years. With models from China such as Qwen (which my teams have used for months), Kimi, InternVL, and DeepSeek, China had clearly been closing the gap, and in areas such as video generation there were already moments where China seemed to be in the lead.

翻译过来就是：

中国在生成式人工智能方面正在赶超美国。2022 年 11 月推出 ChatGPT 时，美国在生成式人工智能方面远远领先于中国。印象变化很慢，所以最近我听到美国和中国的朋友说他们认为中国落后了。但实际上，这种差距在过去两年里迅速缩小了。借助 Qwen（我的团队已经使用了几个月）、Kimi、InternVL 和 DeepSeek 等来自中国的模型，中国显然正在缩小差距，而在视频生成等领域，中国似乎已经处于领先地位。

其中他就提到了Qwen，其实Qwen系列在AI大模型圈子里面一直都很活跃。
如果你看过Qwen的HuggingFace首页的话，你会发现它的涉猎非常广，几乎覆盖了所有的领域。
https://huggingface.co/Qwen比如

通用大模型：从0.5B到超百万B大小模型都很齐全
多模态：Qwen-VL系列
音频处理：Qwen-Audio
科学计算：Qwen Math
AI编程：Qwen Coder

发布的模型足足有226个之多，可以说，Qwen比Meta的Llama出发的迟了点，但是一直在做事。

DeepSeek能这么火出圈，是因为它用了所有人都出乎意料的黑科技，然后一举成名，特别是MoE结构的使用。
Qwen系列大多采用Dense结构，不过就在DeepSeek R1发布不久，Qwen2.5-Max模型也发布了，同样采用了MoE结构。

在跟包括DeepSeek V3，GPT4o以及Claude3.5sonnet的比较重，表现是Top级别。

其实很值得注意的是这次DeepSeek V3排在了GPT4o的前面，这其实也证明了某种意义上的转折点，中国Top级别的大模型，DeepSeek，Qwen等，出乎全世界的意料，在短短的两年内追上了具有先发优势的OpenAI，Cluade。
更难能可贵的是，开源这条路Meta的Llama走的最早，法国的Mistral也有一阵走的声音很大，但是都没能继续走下去。
反而是中国的团队，一直不停的在往前走，推进开源社区的前进。
最后，请支持中国的大模型团队，多用这些大模型，多给他们反馈，他们才能走的更远。
Qwen Chat

发表于 2025-4-8 12:57:08

这两个团队都很有技术实力，只是时间轴上的先后关系。
DeepSeek V3是其中的关键，这个模型比Qwen 2.5领先半代。Qwen 2.5从训练流程理念上，我觉得……这个模型已经有点久了
DeepSeek V3使用了更好的对齐数据，尤其是来自R系列的反哺(CoT提示词)。V3又推动R1的发展，形成&#34;左脚踩右脚&#34;联力推进。
(A社的Sonnet肯定也是RL推理模型反哺出来的。不然，Claude不会这么活跃)
目前的情况就是这样：谁的RL搞得多，搞得深，搞得快，越能占据到C位。无疑的是，DeepSeek速度快，潜得猛。遇事犹豫，反受其害。RL是唯一的突破口，要相信机器的突破能力，涌现速度，远超人类，想想看，靠预训练能超人么？
DeepSeek还有一个优势，在于他们对于MoE系统的深刻理解。牢牢把控住了成本优势。
但最核心的优势是：文峰是中国唯一在思考&#34;智能是什么？&#34;&#34;自动化是什么？&#34;这种底层命题的人。你可以把他想成ilya sutskever，Dario Amodei，Geoffrey Hinton这样的人。——人工智能的第一性原理是什么？就是&#34;智能&#34;，人工智能是智能哲学，不是电脑术。
很明显，其他团队的领导最多只能想到两层&#34;怎么赚钱&#34;，怎么做&#34;技术实现&#34;。这就很难做出突破常规的“妖术”。

发表于 2025-4-8 13:09:05

路线很重要，阿里的infra，算法人才肯定不比任何地方差
ds选择moe，完全没有历史包袱
qwen选择了dense，有历史包袱在里面
现在是moe超越了dense，阿里云也在探索moe架构了
比赛才刚开始
qwen已经很牛了，dense追平了llama，基本上是dense领域的最强开源
deepseek是moe最强开源
后面可能linea结构又起来，搞不好ds又下去了
以后大模型肯定是百花齐放，百家争鸣

发表于 2025-4-8 13:22:19

如果有人看过我以前的回答，就知道我一直是DeepSeek和Qwen的小迷弟。我既看好DeepSeek也看好Qwen。DeepSeek出圈的原因在于免费可用的R1模型确确实实达到甚至超越了O1的水准，而Qwen没有拿出这个级别的模型，所以Qwen只能在开源社区爆火。但Qwen现在不行不代表未来不行。

Qwen在年前最后一个工作日发布了Qwen2.5-1M，使用了稀疏注意力并做到了工程实现，据我的了解应该是目前第一个可用的稀疏注意力大模型。
Qwen2.5-1M: 支持100万Token上下文的开源Qwen模型稀疏注意力是我一直以来认为的大模型的一个核心技术点。年前最后一个工作日看到这篇技术报告，觉得太惊艳了，可以说是最好的新年礼物。
稀疏注意力为什么牛逼？让我们先来回顾一下最近被大众狂吹的DeepSeek牛逼在哪。
DeepSeek从初代发布以来就使用MoE的结构，MoE结构的好处在于，模型本身的参数量可以很大，但是推理时激活的参数量很少，这样就可以做到在保留大尺寸模型的同时，又能像小尺寸模型那样快速推理。
DeepSeek_v2的核心贡献在于MLA, 作者们觉得用hidden state的向量维度表示kv太冗余了，于是用了低秩的思想压缩了KV cache，使得同样的显存可以存下更多的KV cache，因此模型服务的吞吐量得到了大幅度提升。
DeepSeek_v3的核心贡献在于fp8训练，证明了fp8训练也能达到fp16/bf16训练的精度，又大幅度压缩了训练成本。
最近的DeepSeek R1又证明了rule-based reward就能训练出类似于O1的推理模型，这样能够避免训练各种Reward Model和复杂采样带来的开销。优雅、便宜且有效。另外，DeepSeek之前又提出了GRPO，比起PPO，省略了Value Model（虽然我认为value model还是有必要的...
综上所述，DeepSeek的牛逼在于是结合工程和算法，用阿卡姆剃刀一刀一刀切除LLM中冗余的部分，从而打破效果强、推理快、成本低的不可能三角。
那么如今的LLM还有哪些缺点呢？其中一个缺点是，不论是哪个类GPT的LLM，支持的上下文长度都是有限的，并且随着token数增多，模型的推理时间呈平方增长，这是self-attention的核心缺点。有很多工作诸如linear-attention, 各种RNN，尝试解决这个问题，虽然其中有像minmax-01那样通过结合linear-attentionh和self-attention那样在精度和计算复杂度上达到平衡的模型，但模型支持的上下文依旧是有限的，不解决本质问题。当前LLM的本质问题在于，对于预测next token, 所有的上下文都会参与计算。这是相当反直觉的，你在数学考试上写下的答案和你早上吃了一个苹果没有任何关系，你早上吃了苹果这件事完全不需要参与考试答案的计算，但现在的LLM确实不能原生做到这点。这里有阿卡姆剃刀可以剃的点。
Qwen2.5-1M率先提出了解决方案，通过DCA+MInference，使得模型可以把上下文的长度上限推到几乎无限（tech report没这么说，是我自己推测的），并且在推理时有选择性的选择上下文稀疏地计算。如果结合kv cache的offloading, 也许LLM离真正的AGI就不远了。

发表于 2025-4-8 13:35:48

常年写sft/RL Qwen和DeepSeek训练脚本和优化，算法同事就是爬数据and跑训练。
Qwen靠美金就可以，并不是靠技术创新（看模型结构基本没咋变，和llama比难有优势），而且结果只是打榜，经不住真实用户拷打，R1是能经受美国佬的考验，且把NV股价干掉18%，折合好几个阿里巴巴，都不用吹，另外Deepseek目前160多个国家 appstore top1，且歪果仁在X上一片好评，如果对手都不吝赞美（meta、微软、sd老板都明确肯定ds的创新，anthropic ceo怂恿更严格芯片封锁），那真的可以openai平起平坐（恰巧Sam Altman也confirm了r1的强大，这应该是头一次，其他公司没这个机会），成本上吊打closed ai没啥悬念，人头担保。
V3的infra冠绝全球，虽然训练没有降1/10（这个是外行的认知），但训练MFU确实加速了50%左右（moe 256 expert MFU达到45%，比dense模型难），同时用fp8还很顺利；更重要的是推理decoding phase几乎快做成compute bound，几乎秒杀任何team……v3报告一出来，前前后后分析了一周，mla、mtp、dualpipe及overlap、fp8 train、分布式推理，每一项我很有成效且价值巨大，所以就给了全球top1的肯定，参考我之前写的文章（对了，之前我对他们卡间机间带宽估算提出质疑，然后最近在我的文章下面抓到v3 paper作者之一，400gb ib网卡，nccl他们能跑到50GB/s，真的难以置信），不接受反驳……paper透露的深度和聪明感觉同cuda一样，一旦机会来了，他们肯定会有位置……
R1直接打破了推理scaling这个错误方向（个人认为，其实开源o1都是靠多次采样和搜索，并且通过prm进行verify，如果模型能力没显著提升价值就不大，成本就不说了），真正让模型有reason能力，同时成本降低很多，让我等屌丝都能用，而openai 200刀基本是笑话。其独创的GRPO降低ppo训练成本的同时保证算法可靠性，Qwen是效法者。
Qwen靠什么呢，现状是，大部分算法都在折腾数据，post train基本都做sft，RL玩的都很浅（不做优化，相比sft慢10倍），训练基本做不了任何优化，因为试错成本太高且水平不够。
ps：评论区多了很多无脑黑ds的言论，特别没有任何理由的，什么蒸馏、套壳理论，看到了就直接开喷了，不多废话，这里不适合你。

为什么同为开源追平 OpenAI，Qwen 没有像 DeepSeek 一样出圈？

本周热门