刚刚,大模型竞技场榜单上再添一款国产模型——
来自阿里,Qwen2.5-Max,超越了DeepSeek-V3,以总分1332的成绩位列总榜第七。
同时还一举超越Claude 3.5 Sonnet、Llama 3.1 405B等模型。
特别是在编程、数学等方面表现格外突出,能够与满血o1、DeepSeek-R1并列第一。
Chatbot Arena是由LMSYS Org推出的大模型性能测试平台,目前集成了190多种模型,采用模型两两组队交给用户盲测,根据真实对话体验对模型能力进行投票。
也正因此, Chatbot Arena LLM Leaderboard是全球顶级大模型的最权威、最重要的竞技场。
在其新开的网页应用开发WebDev榜单上,Qwen2.5-Max也冲进了前十。 |
|