前几天,OpenAI联创/前首席科学家Ilya在NeurIPS的演讲中说到:预训练已经没搞头了,因为全世界只有一个互联网,可以用来喂大模型的数据已经消耗殆尽了。
这个观点在业界掀起了不小的波澜,有不少人把这句话解读为大模型的发展遇到了明显的瓶颈。
当然,这话不无道理,但也不全对。
根据AI业界公理"Scaling-Law"的内容来看,算力、数据、超参数规模三者对于模型的性能都有非常重要的影响。如果有一个因素拖后腿,仅仅靠另外两个因素的提升很难让模型性能有效地持续提升。而在可用来训练的数据几近消耗殆尽,合成数据也还不能扛起大旗的现状之下,通过预训练让模型性能获得提升似乎确实已经看不到光明的前景了。
但是,除了预训练,AI大模型行业就没有其他有价值的事情做了吗?纵深发展的可能性被限制了,那有没有可能水平方向拓展业务宽度呢?
答案是肯定的。
前段时间举世瞩目的ChatGPT两周年庆生宴,以o1和o1 pro暖场,以o3和o3-mini压轴,无比坚定地扛起了引领业界文理分科的大旗,国内知名模型厂深度求索、通义千问、月之暗面也随之推出了自己的推理类模型。
在OpenAI吸引全球目光的同时,宿敌Google也没有闲着,他们也发布了自己的推理模型Gemini 2.0 Flash Thinking,给AI界这次文理分科添了把柴火。当然,Google不会甘心当跟随者,Gemini 2.0 Flash带了新的技术和性能,更带来了全新的模型架构形态——天生智能体和All in one的多模态模型。
所以,作为行业的跟随者,可以清晰地感受到2025年行业的几个关键字:
- 文理分科
- 智能体(Agent)
- 多模态(Multimodal)
文理分科
2024年9月,OpenAI发布了o1-preview。o1模型在回答前会先“思考”,通过生成一条内部思维链来理清推理过程,再向用户进行响应。
o1-preview并没有沿用GPT的名称前缀,而是改为OpenAI o1,模型就此分叉的意向似乎是比较明显了。
国内模型大厂纷纷发扬了迅速拥抱变化的互联网精神,在o1正式版上线前,DeepSeek的R1-Lite-Preview,Qwen的QwQ-32B-Preview,Kimi的k1-preivew都紧紧跟上了队伍。
直到12月中旬Google Gemini 2.0 Flash Thinking发布,总算可以大体确认了文理分科是大势所趋,其它厂商也没有别的选择,基本只有跟上这一波潮流。
另外,ChatGPT Pro的membership定价$200/月,核心价值体现在o1的畅玩权限和o1 pro的使用权限。相信除了文理分科这个已经基本成型的趋势之外,重理轻文的偏好也会在2025年改变AI大模型行业的工作重心,大“语言”模型慢慢会被迫演化成大“理工”模型。
我个人非常看好文理分科后国内大模型的前景,因为毕竟理工科是咱“东亚卷王”的传统强项,重理轻文的行业趋势也会让国内的大模型行业需要更多的理工科人才加入。希望有着进入AI行业,实现个人突破想法的“准”同行们,尽早作好AI相关知识/技能的准备。我会推荐知乎知学堂的「大模型应用开发」课程,该课程在深入浅出地介绍了AI大模型的技术原理的基础上,增加了AI开发的实战内容,把候选人们上岗前的培训做到位。传送门放在下方,机会只会青睐有准备的人:
从我一个资深金融IT产品经理的个人学习体验来说,最大的收获是和我自己摸索着把零碎的AI知识点编织成相比,这个课程大大节省了我自己找材料打地基的效率。基础快速并有效地巩固了,在上面加盖楼房就又快又安心了。
智能体(Agent)
虽然Agent这个产品形态最近是被Google 2.0 Flash所强调,但一直关注行业的同学们都清楚,在2023年11月,OpenAI发布了GPTs,把智能体这个LLM的另一种应用形态推广给了整个行业。
尽管由于产品策略的问题,GPTs上线后一直不温不火,但各个大模型厂商的热情并没有受到影响。智谱清言、文心一言、字节豆包、腾讯元宝等应用平台都相继推出了自己的智能体中心/广场。
智谱清言的智能体广场
早期推出的 Single-Agent 只是在设计模式上和chatbot有差异,在解决实际问题的时候和面向过程的chatbot区分度并不明显,所以agent这个模式得到的认同感并不多。而2024年中旬开始,Multi-Agent 和 Workflow 的概念越来越多地出现在了各大 Agent 构建平台,把 Agent 这个应用形态推上了一个新的高度。
根据最近 Anthropic 发布的综述文章《<a href="http://zhuanlan.zhihu.com/p/13760806591" class="internal" target="_blank">Building Efficient Agents》的描述,2024年其实智能体的应用范围仍然受到了比较大的限制,而在全球一流模型厂的共同支持下,2025年智能体的应用前景理应被业内广泛看好。
多模态(Multimodal)
视觉大模型的发展史可以追溯到Google Deepmind于2022年4月发布了业界首款视觉语言模型(VLM),它能够通过少量输入/输出样例在多种多模态任务上实现few-shot学习,在当时达到了新的SOTA水平。而在2022年底GPT-3让全世界惊艳之后,AI行业迎来了高速发展,大语言模型(LLM)迎来了空前繁荣的时代,视觉语言模型也随之在2023年迎来了一波井喷。
多模态大模型的发展时间线
尽管国内的大语言模型发展一直相对落后于第一集团的几家国外大厂,但视觉语言模型的发展却丝毫不逊色,在国外第一集团的多模态大模型(GPT-4o, Claude 3.5 Sonnect,Gemini 1.5 Pro)的多模态能力还只能停留在图像prompt输入时,Qwen2-VL已经实现了视频prompt输入;在GPT-4o和Gemini 1.5 Pro的实时多模态交流功能仍停留在Demo阶段时,清言APP已经将这个功能用于生产了。
前有快手可灵,后有通义千问和智谱清言,也或许从文心一言初次上线就拥有多模态的时刻开始,国产大模型的多模态之路就已经注定走得更加迅速。所以尽管Google在年底的发布会上展示了他们在多模态模型上的实力和野心,国内厂商在未来的竞争中未必会输给国外的大厂们。
小结
也许如Ilya所说,LLM的性能进步可能暂时遇到了瓶颈,但是整个行业所需要的并不是LLM不停地变得越来越来powerful,而是对工作对生活变得越来越useful。
根据我在正文部分的描述,未来一年大模型行业的发展方向基本已经比较清晰了。如果你和我一样相信AI行业会迎来十年起步的发展期,并重塑我们身边的各种行业,改变人们的生活习惯,那就请不要犹豫,和我们这些AI准同行们一起迈开你的脚步,踏上人生的新旅程,登上人生的新高峰。 |
|