这一波大模型是不是又到了低谷？

有没有感觉大模型并没有现象级的应用？会不会又要进入AI低谷期？

发表于 5 天前

前几天，OpenAI联创/前首席科学家Ilya在NeurIPS的演讲中说到：预训练已经没搞头了，因为全世界只有一个互联网，可以用来喂大模型的数据已经消耗殆尽了。

这个观点在业界掀起了不小的波澜，有不少人把这句话解读为大模型的发展遇到了明显的瓶颈。
当然，这话不无道理，但也不全对。
根据AI业界公理&#34;Scaling-Law&#34;的内容来看，算力、数据、超参数规模三者对于模型的性能都有非常重要的影响。如果有一个因素拖后腿，仅仅靠另外两个因素的提升很难让模型性能有效地持续提升。而在可用来训练的数据几近消耗殆尽，合成数据也还不能扛起大旗的现状之下，通过预训练让模型性能获得提升似乎确实已经看不到光明的前景了。
但是，除了预训练，AI大模型行业就没有其他有价值的事情做了吗？纵深发展的可能性被限制了，那有没有可能水平方向拓展业务宽度呢？
答案是肯定的。
前段时间举世瞩目的ChatGPT两周年庆生宴，以o1和o1 pro暖场，以o3和o3-mini压轴，无比坚定地扛起了引领业界文理分科的大旗，国内知名模型厂深度求索、通义千问、月之暗面也随之推出了自己的推理类模型。
在OpenAI吸引全球目光的同时，宿敌Google也没有闲着，他们也发布了自己的推理模型Gemini 2.0 Flash Thinking，给AI界这次文理分科添了把柴火。当然，Google不会甘心当跟随者，Gemini 2.0 Flash带了新的技术和性能，更带来了全新的模型架构形态——天生智能体和All in one的多模态模型。
所以，作为行业的跟随者，可以清晰地感受到2025年行业的几个关键字：

文理分科
智能体（Agent）
多模态（Multimodal）

文理分科

2024年9月，OpenAI发布了o1-preview。o1模型在回答前会先“思考”，通过生成一条内部思维链来理清推理过程，再向用户进行响应。
o1-preview并没有沿用GPT的名称前缀，而是改为OpenAI o1，模型就此分叉的意向似乎是比较明显了。
国内模型大厂纷纷发扬了迅速拥抱变化的互联网精神，在o1正式版上线前，DeepSeek的R1-Lite-Preview，Qwen的QwQ-32B-Preview，Kimi的k1-preivew都紧紧跟上了队伍。
直到12月中旬Google Gemini 2.0 Flash Thinking发布，总算可以大体确认了文理分科是大势所趋，其它厂商也没有别的选择，基本只有跟上这一波潮流。
另外，ChatGPT Pro的membership定价$200/月，核心价值体现在o1的畅玩权限和o1 pro的使用权限。相信除了文理分科这个已经基本成型的趋势之外，重理轻文的偏好也会在2025年改变AI大模型行业的工作重心，大“语言”模型慢慢会被迫演化成大“理工”模型。
我个人非常看好文理分科后国内大模型的前景，因为毕竟理工科是咱“东亚卷王”的传统强项，重理轻文的行业趋势也会让国内的大模型行业需要更多的理工科人才加入。希望有着进入AI行业，实现个人突破想法的“准”同行们，尽早作好AI相关知识/技能的准备。我会推荐知乎知学堂的「大模型应用开发」课程，该课程在深入浅出地介绍了AI大模型的技术原理的基础上，增加了AI开发的实战内容，把候选人们上岗前的培训做到位。传送门放在下方，机会只会青睐有准备的人：
从我一个资深金融IT产品经理的个人学习体验来说，最大的收获是和我自己摸索着把零碎的AI知识点编织成相比，这个课程大大节省了我自己找材料打地基的效率。基础快速并有效地巩固了，在上面加盖楼房就又快又安心了。
智能体(Agent)

虽然Agent这个产品形态最近是被Google 2.0 Flash所强调，但一直关注行业的同学们都清楚，在2023年11月，OpenAI发布了GPTs，把智能体这个LLM的另一种应用形态推广给了整个行业。
尽管由于产品策略的问题，GPTs上线后一直不温不火，但各个大模型厂商的热情并没有受到影响。智谱清言、文心一言、字节豆包、腾讯元宝等应用平台都相继推出了自己的智能体中心/广场。

智谱清言的智能体广场

早期推出的 Single-Agent 只是在设计模式上和chatbot有差异，在解决实际问题的时候和面向过程的chatbot区分度并不明显，所以agent这个模式得到的认同感并不多。而2024年中旬开始，Multi-Agent 和 Workflow 的概念越来越多地出现在了各大 Agent 构建平台，把 Agent 这个应用形态推上了一个新的高度。

根据最近 Anthropic 发布的综述文章《<a href="http://zhuanlan.zhihu.com/p/13760806591" class="internal" target="_blank">Building Efficient Agents》的描述，2024年其实智能体的应用范围仍然受到了比较大的限制，而在全球一流模型厂的共同支持下，2025年智能体的应用前景理应被业内广泛看好。
多模态（Multimodal）

视觉大模型的发展史可以追溯到Google Deepmind于2022年4月发布了业界首款视觉语言模型（VLM），它能够通过少量输入/输出样例在多种多模态任务上实现few-shot学习，在当时达到了新的SOTA水平。而在2022年底GPT-3让全世界惊艳之后，AI行业迎来了高速发展，大语言模型（LLM）迎来了空前繁荣的时代，视觉语言模型也随之在2023年迎来了一波井喷。

多模态大模型的发展时间线

尽管国内的大语言模型发展一直相对落后于第一集团的几家国外大厂，但视觉语言模型的发展却丝毫不逊色，在国外第一集团的多模态大模型（GPT-4o， Claude 3.5 Sonnect，Gemini 1.5 Pro）的多模态能力还只能停留在图像prompt输入时，Qwen2-VL已经实现了视频prompt输入；在GPT-4o和Gemini 1.5 Pro的实时多模态交流功能仍停留在Demo阶段时，清言APP已经将这个功能用于生产了。
前有快手可灵，后有通义千问和智谱清言，也或许从文心一言初次上线就拥有多模态的时刻开始，国产大模型的多模态之路就已经注定走得更加迅速。所以尽管Google在年底的发布会上展示了他们在多模态模型上的实力和野心，国内厂商在未来的竞争中未必会输给国外的大厂们。
小结

也许如Ilya所说，LLM的性能进步可能暂时遇到了瓶颈，但是整个行业所需要的并不是LLM不停地变得越来越来powerful，而是对工作对生活变得越来越useful。
根据我在正文部分的描述，未来一年大模型行业的发展方向基本已经比较清晰了。如果你和我一样相信AI行业会迎来十年起步的发展期，并重塑我们身边的各种行业，改变人们的生活习惯，那就请不要犹豫，和我们这些AI准同行们一起迈开你的脚步，踏上人生的新旅程，登上人生的新高峰。

发表于 5 天前

大多数人都高估了新技术在前两年的影响力，而低估了他在未来10年的影响力。
大模型火爆的核心原因是他的泛化性好，能scale，而不是让他去解决100%的hard case或者让他做个phd。大家回想一下，对于LLM的能力要求也是随着模型平均水平的变高而水涨船高的。我还记得gpt4刚出来的时候，api巨贵，网页端一个小时限制3条对话，那个时候就觉得太神了太聪明了，但是逐渐的今年的开源模型也能到达这个水平了，大家又会觉得还不够
不着急慢慢来，super app不是打个响指就能想出来的

发表于 5 天前

利益相关：从事大模型应用层的研发工作。
大模型一定程度上是到了低谷。
仅仅一部分人做到写代码离不开、写邮件离不开大模型，那也就是个office+wps的价值。
我也挺离不开ppt跟word的。
撑不起现在的估值的。
<hr/>语言大模型的问题就在于行为太像人，所以很多应用是显而易见的，所以资本的耐心也就不多。

举个例子，资本要的不是“游戏科学程序员80%的工作依赖大模型”，
而是“使用大模型，黑神话第二部的上线时间提前了8个月”
或者“因为使用大模型可以节省人力，所以黑神话2、3同步开发”。

至于说“因为使用大模型，游戏科学成功裁员，薪酬节省50%”，想象空间也很小。

发表于 5 天前

利益相关，在某独角兽做大模型推理。
先给出我的答案，大模型的泡沫在消退，但实际的价值也在逐渐体现。
很多答主，包括我自己，都是大模型的从业者。但无论是做预训练，基础设施，还是agent / 应用，都会有自己的视野局限。
此时我们可以参考国内 / 国际上研究咨询公司的调研成果。比较有名的机构如 Forrester，Gartner。
相比于从业者的一手信息，他们的报告可能会损失一些细节，但会更加全面地展示整个生态。
我们来看看 Gartner 今年针对 AI 领域发布的报告：

Hype Cycle for AI

通常 Gartner 会将一项技术的发展和成熟过程分为 5 个阶段：

创新爆发：技术突破出现，媒体大肆炒作报道，但主流的应用还没有出现。
膨胀顶峰：早期成功案例出现，大家开始对该技术抱有过高的预期，该技术也吸引了大量投资。
幻灭低谷：技术发展放缓或者效果未达预期，炒作开始消退，但真正有潜力的应用开始显现。
启蒙坡道：随着对技术的理解逐渐深入，企业开始找到实际的应用场景和价值，技术稳步发展。
生产力高原：技术达到成熟期，成为主流，展现出稳定的价值。

Gartner 对 Generative AI 的判断是目前即将走出”膨胀顶峰“，进入“幻灭低谷“，并在 2-5 年内达到“生产力高原“。
即将走出”膨胀顶峰“，进入“幻灭低谷“实际上和我们的体感一致，最近 GPT-5 的难产；perplexity / character.ai 也没有收获到预期中的巨大成功。大家在等待中开始怀疑，进而产生了大模型陷入低谷的感受。
然而如果我们去看Gartner 针对 Generative AI 的细分报告：

Hype Cycle for Generative AI

我们会发现，总体上 Generative AI 的细分领域也是处于“创新爆发”和“膨胀顶峰“这两个阶段。但“基于 Gen-AI 的虚拟助手”，“RAG”，“基于 Gen-AI 的应用”，Gartner 给出了在 2 年内达到“生产力高原“的评价。
结合 Gartner 对 Gen-AI 的预测，我们可以看出 Gartner 对 Gen-AI 的发展持有很正面的看法：

到 2026 年，75% 的企业将使用 Gen-AI 合成用户画像；到 2027 年超过 50% 的企业将使用 domain-specific 模型；同年，超过 50% 的技术选型将结合 Gen-AI 完成；到 2028 年，agent 将接管三分之一的 Gen-AI 调用; 同年，30% 的 Gen-AI 将针对能耗进行优化，减少电力支出。

感觉太遥远了？看看我们身边的例子：

推荐算法开始使用 LLM 的架构，比如：https://github.com/bytedance/HLLM，短视频，网购等推荐场景有开始使用大模型的趋势。
使用 LLM 做非结构化数据的处理。
使用 LLM 做数据过滤，审查。
使用 SD 模型做广告图。
...

是不是开始觉得大模型已经在潜移默化地改变我们的世界了 :D
不过话说回来，相比于 ChatGPT 的横空出世，快速发展，大模型渗透世界的过程可能是缓慢的。我认为这会是一个更大的应用生态，远大于 chatbot，code assistant 这几个热门的方向。很多答主提到了大模型产业难以支撑目前的估值，光凭这几个方向确实如此。但把其他大大小小的方向加在一起还未可知，可能这也是 Nvidia 股价居高不下的原因之一吧。
总的来说，Gen-AI 接下来不一定会出现一个“超级应用”来拯救世界，但在泡沫消融之下，也蕴藏着丰富的生机，拭目以待！

发表于 5 天前

是的，就像现在的天气，秋凉乍寒。
如果没有新的算法范式，基本上就算完了。我等Claude开源，10元包安装，老婆抱回家。
其实AI寒冬说来也不稀奇，从1958年到1970年，人类在初代神经网络上的论文已经积累了几千篇，那时候还是单层神经感知机，人类就很疯狂了(就像今天一样)。当杰弗里辛顿加入这个行业时，基本上跟讨饭一样了。所以不要觉得没经历过冬天，就认为冬天是不存在的。 80年代兴起的“基于规则的专家系统”也亡了，有些系统规则加到了10000多条，也没产生智能。
我来说说我的几个感知:
①硅芯片，摩尔已亡，强弩之末，不能穿鲁缟。
②Transformer模型学习吸收率低，推理成本高。我质疑过这个技术能不能让我们走向高阶AGI。也许20年后来看，Transformer可能和1958年的单层感知机差不多。如果算力和数据受限于物理世界的天花板，那么最应该被动刀子的就是Transformer。——为什么有人会觉得在寒冬到来之前，人类专家一定能开发出强于Transformer的技术？“到时候，一定能解决的” ，以前的AI寒冬不正是因为“没解决问题”导致的么？Transformer的发明，押宝，发展，都具有极强的历史偶然性，基本上就是八骑士+ilya Sutskever的技术直觉，好吧，这世界就是靠十个人的偶然性了，是吧。而且一旦资本被吓回去，下一次夏天的到来，就要是……那些没有经历过掉皮的新资本家了。
③o1型推理模型，边界明显，仍然取决于底层数据，很多人在渴望“强推出奇迹”，我觉得这是不可能的。o1最大的用处，可能是帮助Sam完成了融资。
④数据看起来庞大，实则分散稀疏，一个村的围着一只高压锅，每个人只能分到一勺。中文世界里可能都是电商文案和网文。(你还想让我付费？)
⑤多模态感知侧发展极慢，能超越“模型结界”，进入现实世界的Agents遥遥无期。如果没有能感知世界的Agentic bots，你就去用Prompts吧，打10000字打到手断，你也描述不清楚“我现在面临着什么状态”。

我们来讲讲，目前大模型的成就，如果我不讲的话，我会被打入加里马库斯的反革命派。
①幻觉越来越低，推理越来越强，插入教育行业指日可待，教育行业就是AGI领域，具有明显的通用性。
②代码领域。代码也属于半通用型领域，补全代码的能力，还会继续增强。
③搜索领域。搜索领域是个典型的通用性应用场景，AGI的最佳领域。
④AI伴侣领域。如果有Claude Sonnet做底子，加上一些调试，你等着乐去吧。我觉得伴侣领域真的很奇怪，虽然每个人的经历不同，但对于理想伴侣的想象却有着难以理解的单调性。
但话说回来，这些东西能让AI公司吃饱饭么？
现在这个阶段，还是要问一个问题: 什么是通用的？我想很多人都没理解过AGI这个词是什么意思，这中间的G字，就是通用的意思，通用的东西，现阶段的水平，就像白色T恤，蓝色牛仔裤，能好到哪里去。
我在想加里马库斯会不会成为第二个马文明斯基。

发表于 5 天前

关于您提到的关于大模型的问题，我们认为每一个技术发展阶段都有其特有的起伏和周期。当前的大模型技术虽然可能面临着阶段性的挑战，但并不意味着它已经到达低谷。实际上，大模型的应用正在逐渐渗透到各行各业，虽然某些领域的应用尚未达到所谓的“现象级”，但这并不代表其潜力被削弱。<br><br>关于是否会进入AI低谷期，我们认为技术发展有其内在规律，短期内的波动无法预测长期趋势。AI领域的技术创新和应用探索从未停止，未来随着算法、数据、算力等各方面的持续进步，大模型的应用将更加成熟和广泛。因此，对于AI未来的发展，我们仍持乐观态度。

这一波大模型是不是又到了低谷？

本周热门