阿里 Qwen2.5-Max 反超 DeepSeek-V3，对此你怎么看？

刚刚，大模型竞技场榜单上再添一款国产模型——

来自阿里，Qwen2.5-Max，超越了DeepSeek-V3，以总分1332的成绩位列总榜第七。

同时还一举超越Claude 3.5 Sonnet、Llama 3.1 405B等模型。

特别是在编程、数学等方面表现格外突出，能够与满血o1、DeepSeek-R1并列第一。

Chatbot Arena是由LMSYS Org推出的大模型性能测试平台，目前集成了190多种模型，采用模型两两组队交给用户盲测，根据真实对话体验对模型能力进行投票。

也正因此， Chatbot Arena LLM Leaderboard是全球顶级大模型的最权威、最重要的竞技场。

在其新开的网页应用开发WebDev榜单上，Qwen2.5-Max也冲进了前十。

发表于 2025-4-27 15:01:08

试用了一下，不太行。
虽然运行速度比较快，但分析问题没有deepseek r1有条理，本质上还是上一代llm产品。

发表于 2025-4-27 15:12:44

阿里如果能在DS发布之前就发布现在这个模型，
那肯定是牛逼的一腿。
否则，阿里的财力和人才储备，
这难道不是应该的，
这难道还要舆论夸它？
垄断这么多年？就那么理所当然？

发表于 2025-4-27 15:21:25

很正常啊
我去年就说了
国内ai领头的是qwen和deepseek
两者水平差不多，但是qwen模型多一些，且多模态更强所以我把qwen排前面一点
两边基本不出意外都是新出的模型比另一家之前的模型要强一些
目前，qwen有一个deepseek无法追上的硬件数量优势，只能说看deepseek的算法优化能不能再整出点惊喜了……
挺好的，就是chatglm你可上点心吧，以前的第一梯队，现在豆包和kimi都在你头上拉屎了……

发表于 2025-4-27 15:33:05

我就说一点。
没有deepseek开源的这个大个模型。
国内这帮人，已经再走，小模型开源，大模型闭源收费的closeai的老路线了。
以前这个赛道只有meta，但是他不带我们玩，没有中文。deepseek，做了meta本应该做的是，也就是说，可以考虑给deepseekmeta的估值？（开玩笑。。。）

以前有个问题类似的，说为什么国内没有什么原创性创新之类的。我的观点是穷，从首富到老百姓，一切向钱看。
没有人看天空。

至少目前来看，deepseek是第一个看向天空的人。非常值得尊敬。
qwen很强，但是qwen怎么说呢。。。不想说。。。

发表于 2025-4-27 15:47:58

Qwen 2.5 Max的确还不错，我的感觉是从底模来看，仅次于Gemini 2 Pro，而且两者相差并不大，属于最强大模型。(也是我最近用得比较多的模型。)
Qwen的合成数据应该非常多，
我想Qwen正在紧锣密鼓地准备QwQ Max，如果赶在o3之前发布，那一定非常杀。
Qwen目前的问题就是对齐风格过于死板的问题，一个大模型整得一点乐趣都没有。
不像鲸鱼那样放得开，到最后可能是没有用户缘。
所以，Qwen很难撼动鲸鱼作为&#34;新国民AI&#34; 的地位。鲸鱼现在是——人精新王，喜剧之王，恶搞之王，牢饭之王。

阿里 Qwen2.5-Max 反超 DeepSeek-V3，对此你怎么看？

本周热门