kevinnest 发表于 6 天前

马斯克 Grok 3 大模型已发布,他之前「夸下海口」的「地表最强」 AI 名副其实吗?

马斯克现场解说

paul3105 发表于 6 天前

当然,名副其实。
但模型这个东西,一旦进入实战,就是边界模糊的,通常只有第一梯队,没有第一。
同一梯队里,一个模型很难全方位碾压另一个。
Grok 3仍然在o1-o3的时间夹缝中,就像o3-mini-high一样。
我本来以为Grok 3的基模,已经跨越了"世代",但从实战来看,它似乎还是GPT-4.5级的……好吧,让我们等GPT-5、Claude4。
从目前来看,受DeepSeek的影响,闭源影响力在急剧萎缩,Grok 3的全网降温非常快,因为大家好像都感到一种无意义感,似乎在说,马上开源就能达到那里。
闭源生态,承受不了太多玩家,能容得下OpenAI和Anthropic两位,已经很吃力了。 大模型没有多样性。OpenAI吃AGI通用任务(通常是学术领域),Anthropic吃代码,Google吃廉价小模型,其他闭源吃西北风。
Grok 3肯定在SOTA梯队,但意义不大,因为很快它就会被遗忘(除非开源)。 按Dario Amodei说法,只不过是在时间点上插了个空,赶了个巧。

ldf007 发表于 6 天前

一句话总结:PPT做的很好。
开局第一张图比的是大模型性能提升速度。太鸡贼了,起点是GPT2的性能,这样的视觉效果就给人一种他马斯克的AI跟吃了仙丹一样短时间内性能暴涨,别人的慢的龟速。


但实际上,刨掉GPT3,从3.5开始,Grok成长速度也就那样,甚至从Grok1的增速就变缓了。


要比速度,还得看DeepSeek,24年初开始发力,24年底就追上世界第一梯队了。


第二张图片是秀硬件实力,Grok用了20万张显卡,有钱。


第三张才是秀性能。
这张更是鸡贼,你看第三列是Gemini-2 Pro,但其实按照性能排其实是第四,反而第三的DeepSeek安排到第四位,这样的视觉效果就是Grok3明显领先其他。


这才是本来应该的排序。


这次Grok3的发布会我看到最多的就是PPT技巧很强,做这个一定花了很大的功夫,力争让观众从视觉上觉得Grok3强。
性能这种主菜放在第三位,可想而知并没有觉得多么的突出,你去看看DeepSeek的论文,摘要下面紧接的就是性能对比,不搞那些虚头巴脑的。
<hr/>更多DeepSeek内容,请参考
DeepSeek零基础实操训练

youyou 发表于 6 天前

严谨来讲,Grok 3给人一种强烈的“雷声大、雨点小”的感觉,相信很多人和我同感。
相比于国内外目前AI厂商,xAI团队用了10万块(实际为十多万) H100 GPU,训练出首个Elo评分破1400的模型。
透过发布会你可以明显看出,老马立誓要做个AI数值怪,本质是用美元和英伟达显卡达到 “数值碾压效果”,以此自称“地表最强AI”。
而且后续计划还要扩大规模,功率最起码得是现在的五倍,在堆卡的路上越走越远,多吓人啊?
就像游戏里氪金买装备的 RMB 玩家,Grok 3 的 Benchmark 分数再高,也掩盖不了技术路径依赖 “暴力 Scaling” 的本质。


发布会上主打的 “思维链推理” 和 “合成数据配方”,其他厂商早玩过一轮。
至于真正颠覆性的技术,比如能让推理效率翻倍的架构革命、或彻底摆脱 Transformer 范式的新范式?抱歉,真没看到,有一说一,不能骗观众。
绞尽脑汁,思来想去,也可能是有点,那就是你可以同个问题,多次重复问,自主设置AI深度思考时间。
等待时间越长,给的上下文回复越精准。(基本就和Deepseek深度思考类似,只不过他这个由于数据量太大,能多思考一会)
基于这种前提下,不妨换个思考,如果把对象替代成OpenAI。
哪怕山姆奥特曼一点创新都没有,在大模型预训练scaling law快要摸到上限的趋势下,配合这些顶级卡,他也能强行挤出点“性能提升”。


没办法,毕竟这就是量大的好处,属于目前全球最大H100 连接集群。
在国内外AI生态疯狂发版本、疯狂迭代的情况下,相信很多人对于AI推陈出新,都有点脱敏了。
甚至有点视觉疲劳,以至于不少人私信问我,该选哪个好一点?实在挑不过来了......
人们想看到的是 Grok 3能否带来“AI技术革新”,哪怕一点点也行,结果......
当各厂商在卷开源、降成本时,Grok 3 的闭源策略和天价算力直接把 99% 的企业挡在门外。
发布会上炫的火星探测推演,普通用户摸不到。而打工人关心的实质性功能,Grok 3 并没比竞品多掏出一张新牌。
AI 圈现在就像手机发布会 —— 参数通胀、挤牙膏式升级。用户也早就看透了,今天你加 10 万块 GPU,明天他堆 100T 数据,本质都是 Scaling Law 内卷。
目前看法只能是这样,希望Grok 3 在上线发版后,实测看效果,真正能给到大家不一样的体验吧!
【相关阅读】

普通人怎样用好Deepseek?上万人口碑好评神贴,手把手告诉你Deepseek的那些实操案例!
普通人怎样用好Deepseek?花费十分钟,利用Deepseek画漫画,是一种什么体验?对于做AI攻略,我是严肃认真的,请放心阅读,包君受益!
你用 DeepSeek-R1 做出了什么有趣的东西?

zke 发表于 6 天前

拉了一坨大的
所有数据都是他自己给的,没有论文,没有第三方验证,就算这个数据是真的也照样难绷,10万张卡的算力提升就这?

迟钝的小松鼠 发表于 6 天前

三句话总结:有量变,无质变,性价比不高。
现在主要就看官方放出来的3张图,看样子有四个版本:Grok-3、Grok-3 mini、Grok-Reasoning Beta和Grok-3 Reasoning mini,其中Grok-3和Grok-3 mini是传统模型,对标GPT-4o和DeepSeek V3,Grok-Reasoning Beta和Grok-3 Reasoning mini是推理模型,对标OpenAI o1/o3和DeepSeek R1。






从基座测试结果来看,得分当然是领先(要不然也不会放出来,对吧),但是也并不是遥遥领先。
但是,这可是xAI拿20万张GPU卡训出来的,除了基座测试分数之外也没有带来其他惊人的成绩,这性价比,是真的不高。
虽然Grok 3可以给Scaling Laws续一口命,但是也表明Scaling Laws越来越接近于平台期,投入太多,性能回报不成比例增加,大模型继续往下走还是需要寻找新的突破口。
页: [1]
查看完整版本: 马斯克 Grok 3 大模型已发布,他之前「夸下海口」的「地表最强」 AI 名副其实吗?