阿里 Qwen2.5-Max 反超 DeepSeek-V3,对此你怎么看?

刚刚,大模型竞技场榜单上再添一款国产模型——

来自阿里,Qwen2.5-Max,超越了DeepSeek-V3,以总分1332的成绩位列总榜第七。

同时还一举超越Claude 3.5 Sonnet、Llama 3.1 405B等模型。

特别是在编程、数学等方面表现格外突出,能够与满血o1、DeepSeek-R1并列第一。

Chatbot Arena是由LMSYS Org推出的大模型性能测试平台,目前集成了190多种模型,采用模型两两组队交给用户盲测,根据真实对话体验对模型能力进行投票。

也正因此, Chatbot Arena LLM Leaderboard是全球顶级大模型的最权威、最重要的竞技场。

在其新开的网页应用开发WebDev榜单上,Qwen2.5-Max也冲进了前十。
收藏者
0
被浏览
108

5 个回答

ccbyoujian LV

发表于 2025-4-27 15:01:08

试用了一下,不太行。
虽然运行速度比较快,但分析问题没有deepseek r1有条理,本质上还是上一代llm产品。

joeme LV

发表于 2025-4-27 15:12:44

阿里如果能在DS发布之前就发布现在这个模型,
那肯定是牛逼的一腿。
否则,阿里的财力和人才储备,
这难道不是应该的,
这难道还要舆论夸它?
垄断这么多年?就那么理所当然?

baicai LV

发表于 2025-4-27 15:21:25

很正常啊
我去年就说了
国内ai领头的是qwen和deepseek
两者水平差不多,但是qwen模型多一些,且多模态更强所以我把qwen排前面一点
两边基本不出意外都是新出的模型比另一家之前的模型要强一些
目前,qwen有一个deepseek无法追上的硬件数量优势,只能说看deepseek的算法优化能不能再整出点惊喜了……
挺好的,就是chatglm你可上点心吧,以前的第一梯队,现在豆包和kimi都在你头上拉屎了……

一发最何 LV

发表于 2025-4-27 15:33:05

我就说一点。
没有deepseek开源的这个大个模型。
国内这帮人,已经再走,小模型开源,大模型闭源收费的closeai的老路线了。
以前这个赛道只有meta,但是他不带我们玩,没有中文。deepseek,做了meta本应该做的是,也就是说,可以考虑给deepseekmeta的估值?(开玩笑。。。)

以前有个问题类似的,说为什么国内没有什么原创性创新之类的。我的观点是穷,从首富到老百姓,一切向钱看。
没有人看天空。

至少目前来看,deepseek是第一个看向天空的人。非常值得尊敬。
qwen很强,但是qwen怎么说呢。。。不想说。。。

IT货郎 LV

发表于 2025-4-27 15:47:58

Qwen 2.5 Max的确还不错,我的感觉是从底模来看,仅次于Gemini 2 Pro,而且两者相差并不大,属于最强大模型。(也是我最近用得比较多的模型。)
Qwen的合成数据应该非常多,
我想Qwen正在紧锣密鼓地准备QwQ Max,如果赶在o3之前发布,那一定非常杀。
Qwen目前的问题就是对齐风格过于死板的问题,一个大模型整得一点乐趣都没有。
不像鲸鱼那样放得开,到最后可能是没有用户缘。
所以,Qwen很难撼动鲸鱼作为"新国民AI" 的地位。鲸鱼现在是——人精新王,喜剧之王,恶搞之王,牢饭之王。

您需要登录后才可以回帖 登录 | 立即注册