最好是一个复杂的评判标准。
单纯从榜单来说,跑分数据是这样的(当然,一楼已经补全了未来一两个月里要推出的大模型,补全后的榜单也已提供)。
但是我想说的是,如果你说性能榜,那基本就是这样。但是你要说“最好”,那还真是另一回事。推理性能很高的小模型,深度足够,但是知识广度可能不够;英文很友好的模型,中文性能可能赶不上国产模型。
比如,O3 的推理能力也很顶级,从跑分看,比 R1 高。但是 R1 一手“贴吧老哥”风格对国人来说,那能把 O3 打成“白痴”。
再比如,Claude 3.5 虽然推出很久,但是编码能力仍然是顶级的。但这是一个“封号狂魔”,一直是卖 API 的,还卖得很贵。未来 Claude 4.0 推出,不管是基座模型还是推理模型,性能肯定低不了,但是大部分国人用不上。
又比如 GPT-5、Grok 3,未来一两个月推出,单从跑分来说,估计会超过 Gemini 2.0 Pro,要不也不好意思推出。但是 Grok 3 的商业路线不明确,而从 OpenAI 的“尿性”看,估计很快会给你一个路由模型。简单说,看着 GPT-5 整合了基座模型和推理模型,其实背后应该是三个模型,mini 版“传统手艺”不会丢,推理模型仍然收费等等,“传统技能”使用概率百分之九十九。
第一,这里不单单说是的性能榜,也包括对传统七家强势AI 公司内部情况的判断, openai,手上有货但是喜欢营销,玩商业小把戏,各种mini 版,节省服务器费用, claude RLHF 无敌,但是资金,名气,流量,赶不上openai , 所以各种封号,而且很针对中国,xai 情况不明,马斯克声音大雨点小的可能很大, meta 系列 高分低能,llamm 405B 推出的时候,跑分也是超过了GPT4,的,但是你发现deepseek 同样开源后国内国外玩疯了,而llama 405B 不过是个过客。qwen 3 可能也会是一匹黑马。grok 3 同样也可能是一匹黑马, 但是现在都难说。
第二, 性能和体验是两回事,就如同R1 那强大的性能,对大多数人来说,已经超模了。显然很多时候,不是R1 不够强,是普通人甚至提不出能发掘R1 性能的正确问题了。所以体验本质是人和模型交互过程。到了今天已经不简单的是模型性能的问题了。O3 数学跑分造假不造假不说,普通人咋可能天天搞AIME 那么复杂的数学? GROK3 传言能解开黎曼猜想? 这虽然很扯淡,但是黎曼猜想和普通人距离太远了。我朋友二狗的想法,才是大部分人想弄明白的。
所以,如果从体验来说,而不是从跑分榜单来说,在通用情况下,DeepSeek V3 、Gemini Pro 2.0、DeepSeek R1、Claude 4.0,应该是未来很长一段时间最好的模型。
判定条件是:用得上、体验爽,并且同时兼顾模型性能的深度和广度。Claude 4.0 加进来完全是因为 Claude 3.5 强大代码能力带来的预期而已,前三个是标准答案。 |
|