马斯克 Grok 3 大模型已发布，他之前「夸下海口」的「地表最强」 AI 名副其实吗？_发现AI问答

kevinnest 发表于 6 天前

马斯克 Grok 3 大模型已发布，他之前「夸下海口」的「地表最强」 AI 名副其实吗？

马斯克现场解说

paul3105 发表于 6 天前

当然，名副其实。
但模型这个东西，一旦进入实战，就是边界模糊的，通常只有第一梯队，没有第一。
同一梯队里，一个模型很难全方位碾压另一个。
Grok 3仍然在o1-o3的时间夹缝中，就像o3-mini-high一样。
我本来以为Grok 3的基模，已经跨越了&#34;世代&#34;，但从实战来看，它似乎还是GPT-4.5级的……好吧，让我们等GPT-5、Claude4。
从目前来看，受DeepSeek的影响，闭源影响力在急剧萎缩，Grok 3的全网降温非常快，因为大家好像都感到一种无意义感，似乎在说，马上开源就能达到那里。
闭源生态，承受不了太多玩家，能容得下OpenAI和Anthropic两位，已经很吃力了。大模型没有多样性。OpenAI吃AGI通用任务(通常是学术领域)，Anthropic吃代码，Google吃廉价小模型，其他闭源吃西北风。
Grok 3肯定在SOTA梯队，但意义不大，因为很快它就会被遗忘(除非开源)。按Dario Amodei说法，只不过是在时间点上插了个空，赶了个巧。

ldf007 发表于 6 天前

一句话总结：PPT做的很好。
开局第一张图比的是大模型性能提升速度。太鸡贼了，起点是GPT2的性能，这样的视觉效果就给人一种他马斯克的AI跟吃了仙丹一样短时间内性能暴涨，别人的慢的龟速。

但实际上，刨掉GPT3，从3.5开始，Grok成长速度也就那样，甚至从Grok1的增速就变缓了。

要比速度，还得看DeepSeek，24年初开始发力，24年底就追上世界第一梯队了。

第二张图片是秀硬件实力，Grok用了20万张显卡，有钱。

第三张才是秀性能。
这张更是鸡贼，你看第三列是Gemini-2 Pro，但其实按照性能排其实是第四，反而第三的DeepSeek安排到第四位，这样的视觉效果就是Grok3明显领先其他。

这才是本来应该的排序。

这次Grok3的发布会我看到最多的就是PPT技巧很强，做这个一定花了很大的功夫，力争让观众从视觉上觉得Grok3强。
性能这种主菜放在第三位，可想而知并没有觉得多么的突出，你去看看DeepSeek的论文，摘要下面紧接的就是性能对比，不搞那些虚头巴脑的。
<hr/>更多DeepSeek内容，请参考
DeepSeek零基础实操训练

youyou 发表于 6 天前

严谨来讲，Grok 3给人一种强烈的“雷声大、雨点小”的感觉，相信很多人和我同感。
相比于国内外目前AI厂商，xAI团队用了10万块（实际为十多万） H100 GPU，训练出首个Elo评分破1400的模型。
透过发布会你可以明显看出，老马立誓要做个AI数值怪，本质是用美元和英伟达显卡达到 “数值碾压效果”，以此自称“地表最强AI”。
而且后续计划还要扩大规模，功率最起码得是现在的五倍，在堆卡的路上越走越远，多吓人啊？
就像游戏里氪金买装备的 RMB 玩家，Grok 3 的 Benchmark 分数再高，也掩盖不了技术路径依赖 “暴力 Scaling” 的本质。

发布会上主打的 “思维链推理” 和 “合成数据配方”，其他厂商早玩过一轮。
至于真正颠覆性的技术，比如能让推理效率翻倍的架构革命、或彻底摆脱 Transformer 范式的新范式？抱歉，真没看到，有一说一，不能骗观众。
绞尽脑汁，思来想去，也可能是有点，那就是你可以同个问题，多次重复问，自主设置AI深度思考时间。
等待时间越长，给的上下文回复越精准。（基本就和Deepseek深度思考类似，只不过他这个由于数据量太大，能多思考一会）
基于这种前提下，不妨换个思考，如果把对象替代成OpenAI。
哪怕山姆奥特曼一点创新都没有，在大模型预训练scaling law快要摸到上限的趋势下，配合这些顶级卡，他也能强行挤出点“性能提升”。

没办法，毕竟这就是量大的好处，属于目前全球最大H100 连接集群。
在国内外AI生态疯狂发版本、疯狂迭代的情况下，相信很多人对于AI推陈出新，都有点脱敏了。
甚至有点视觉疲劳，以至于不少人私信问我，该选哪个好一点？实在挑不过来了......
人们想看到的是 Grok 3能否带来“AI技术革新”，哪怕一点点也行，结果......
当各厂商在卷开源、降成本时，Grok 3 的闭源策略和天价算力直接把 99% 的企业挡在门外。
发布会上炫的火星探测推演，普通用户摸不到。而打工人关心的实质性功能，Grok 3 并没比竞品多掏出一张新牌。
AI 圈现在就像手机发布会 —— 参数通胀、挤牙膏式升级。用户也早就看透了，今天你加 10 万块 GPU，明天他堆 100T 数据，本质都是 Scaling Law 内卷。
目前看法只能是这样，希望Grok 3 在上线发版后，实测看效果，真正能给到大家不一样的体验吧！
【相关阅读】

普通人怎样用好Deepseek？上万人口碑好评神贴，手把手告诉你Deepseek的那些实操案例！
普通人怎样用好Deepseek?花费十分钟，利用Deepseek画漫画，是一种什么体验？对于做AI攻略，我是严肃认真的，请放心阅读，包君受益！
你用 DeepSeek-R1 做出了什么有趣的东西？

zke 发表于 6 天前

拉了一坨大的
所有数据都是他自己给的，没有论文，没有第三方验证，就算这个数据是真的也照样难绷，10万张卡的算力提升就这？

迟钝的小松鼠 发表于 6 天前

三句话总结：有量变，无质变，性价比不高。
现在主要就看官方放出来的3张图，看样子有四个版本：Grok-3、Grok-3 mini、Grok-Reasoning Beta和Grok-3 Reasoning mini，其中Grok-3和Grok-3 mini是传统模型，对标GPT-4o和DeepSeek V3，Grok-Reasoning Beta和Grok-3 Reasoning mini是推理模型，对标OpenAI o1/o3和DeepSeek R1。

从基座测试结果来看，得分当然是领先（要不然也不会放出来，对吧），但是也并不是遥遥领先。
但是，这可是xAI拿20万张GPU卡训出来的，除了基座测试分数之外也没有带来其他惊人的成绩，这性价比，是真的不高。
虽然Grok 3可以给Scaling Laws续一口命，但是也表明Scaling Laws越来越接近于平台期，投入太多，性能回报不成比例增加，大模型继续往下走还是需要寻找新的突破口。

页: [1]

发现AI问答's Archiver

马斯克 Grok 3 大模型已发布，他之前「夸下海口」的「地表最强」 AI 名副其实吗？