flzt120 发表于 6 天前

国内国外全包括,哪个大模型是目前最好的?

目前国内国外有不下百种大模型,哪个大模型才是目前最好的?推荐一下你心目中的Number 1。

全年不休 发表于 6 天前

第二课:柏拉图表征假说与scaling law:KM缩放定律_哔哩哔哩_bilibili
确定哪个大模型是“最好”的,这通常取决于具体的应用场景、评估标准和个人需求。不同的模型在不同的任务上可能表现得更好或更差。然而,根据最近的资料和行业评测,以下几个模型被认为是各自领域内的佼佼者:

[*]国际顶级模型:


[*]GPT-4(由OpenAI开发):被广泛认为是当前最先进、功能最强大的语言模型之一,在许多自然语言处理任务中都表现出色。
[*]PaLM 2 (Bison-001)(由Google开发):这是Google推出的一个非常强大的多模态模型,适用于多种应用场景。
[*]Claude v1(由Anthropic开发):这是一个注重安全性和有用性的对话式AI,与GPT系列相比,在某些方面提供了不同的优势。


[*]国内领先模型:


[*]阶跃星辰Step-2:据LiveBench榜单显示,该模型在指令遵循(IF Average)评分上位居榜首,超越了包括GPT-4在内的多个国际知名模型,并且是国内首个进入全球前十名的语言大模型。
[*]通义千问:作为阿里云推出的通用大模型,它拥有广泛的处理能力,并已在多个行业中得到应用。
[*]文心一言(百度在线网络技术有限公司):在IDC等多个机构发布的评测报告中,文心一言的综合能力评测得分都位列国内主流大模型第一。
[*]讯飞星火(科大讯飞股份有限公司):在语音对话、翻译、文案撰写等方面有很好的表现,并整合了旗下的多款硬件产品。

需要注意的是,“最好”的定义可能会随着时间和技术的进步而变化,而且不同评测机构可能会有不同的排名结果。因此,建议关注最新的研究论文、技术评测以及实际使用案例来获取最新信息。此外,选择最适合您需求的模型时,还需要考虑诸如成本、易用性、特定功能等因素。

yyp 发表于 6 天前

当然是我美高华模型

zh3000 发表于 6 天前

每个大模型,在你使用它的时候,都相当于在给它提供养料,让它更好地茁壮成长。但当国外的大模型长出果实后,很有可能不再分享给你。所以我狭隘地推荐,大家尽可能支持和使用国内的这些也许略逊于国外的大模型。

动感超人 发表于 6 天前

最好是一个复杂的评判标准。


单纯从榜单来说,跑分数据是这样的(当然,一楼已经补全了未来一两个月里要推出的大模型,补全后的榜单也已提供)。
但是我想说的是,如果你说性能榜,那基本就是这样。但是你要说“最好”,那还真是另一回事。推理性能很高的小模型,深度足够,但是知识广度可能不够;英文很友好的模型,中文性能可能赶不上国产模型。
比如,O3的推理能力也很顶级,从跑分看,比 R1 高。但是 R1 一手“贴吧老哥”风格对国人来说,那能把 O3 打成“白痴”。
再比如,Claude 3.5 虽然推出很久,但是编码能力仍然是顶级的。但这是一个“封号狂魔”,一直是卖 API 的,还卖得很贵。未来 Claude 4.0 推出,不管是基座模型还是推理模型,性能肯定低不了,但是大部分国人用不上。
又比如 GPT-5、Grok 3,未来一两个月推出,单从跑分来说,估计会超过 Gemini 2.0 Pro,要不也不好意思推出。但是 Grok 3 的商业路线不明确,而从 OpenAI 的“尿性”看,估计很快会给你一个路由模型。简单说,看着 GPT-5 整合了基座模型和推理模型,其实背后应该是三个模型,mini 版“传统手艺”不会丢,推理模型仍然收费等等,“传统技能”使用概率百分之九十九。

第一,这里不单单说是的性能榜,也包括对传统七家强势AI 公司内部情况的判断, openai,手上有货但是喜欢营销,玩商业小把戏,各种mini 版,节省服务器费用, claudeRLHF 无敌,但是资金,名气,流量,赶不上openai , 所以各种封号,而且很针对中国,xai 情况不明,马斯克声音大雨点小的可能很大, meta 系列 高分低能,llamm 405B 推出的时候,跑分也是超过了GPT4,的,但是你发现deepseek同样开源后国内国外玩疯了,而llama 405B 不过是个过客。qwen 3 可能也会是一匹黑马。grok 3 同样也可能是一匹黑马, 但是现在都难说。
第二, 性能和体验是两回事,就如同R1 那强大的性能,对大多数人来说,已经超模了。显然很多时候,不是R1 不够强,是普通人甚至提不出能发掘R1 性能的正确问题了。所以体验本质是人和模型交互过程。到了今天已经不简单的是模型性能的问题了。O3 数学跑分造假不造假不说,普通人咋可能天天搞AIME那么复杂的数学? GROK3 传言能解开黎曼猜想? 这虽然很扯淡,但是黎曼猜想和普通人距离太远了。我朋友二狗的想法,才是大部分人想弄明白的。

所以,如果从体验来说,而不是从跑分榜单来说,在通用情况下,DeepSeek V3 、Gemini Pro 2.0、DeepSeek R1、Claude 4.0,应该是未来很长一段时间最好的模型。
判定条件是:用得上、体验爽,并且同时兼顾模型性能的深度和广度。Claude 4.0 加进来完全是因为 Claude 3.5 强大代码能力带来的预期而已,前三个是标准答案。

fdsgsg 发表于 6 天前

目前性能榜
Claude 4 Mix / OpenAI o3 牌位预定
o3-mini-high(Grok 3 Reasoning 预定)
OpenAI o1
DeepSeek R1
Gemini Flash 2 Thinking
Gemini 2 Pro(GPT-5 / Grok 3预定)
Qwen 2.5 Max
DeepSeek V3 / GPT-4o / Claude Sonnet

里面还有很多变数,不知道怎么排:
比如Claude 4 with 0 CoT
Qwen Max Reasoning
——
目前看Mix技术,能多快普及,有些不需要CoT的地方(比如日常会话和查询),CoT废话太多。
页: [1]
查看完整版本: 国内国外全包括,哪个大模型是目前最好的?