为什么大模型能通过自然语言训练表现出智能？智能的载体是自然语言吗？

发表于 2025-4-9 18:09:23

这是个直指大模型本质的好问题，我觉得也是大模型研究里最重要的问题，应该没有之一。当然也有不少人认为大模型就是鹦鹉学舌，没有智能，如果这样就架空了这个问题，没有的东西当然无需解释其背后的原因。当然，我个人倾向认为大模型具备真正意义上的智能，后面内容都试图在证明这一点。
关于智能、AGI与SAI

首先，什么是智能？简化地理解，可以把“智能”理解为完成复杂任务的能力集合

。我们可以把能比较好地完成某个具体问题A的能力叫做“A任务智能”，不论解决这个问题的主体是人（Carbon-E，碳基能力集）还是机器(Silicon-E，硅基能力集)，这个不重要，重要的是问题解决得是否足够好。比如我们可以有翻译智能（是否能够实现完美翻译）、情感计算智能（是否能够准确判断情感倾向）等。我们一般所说的通用智能，指的是这些能力构成的合集

。
形式化地说，假设解决某个具体问题A的能力定义为函数

，意味着对于输入

，通过

函数映射能够给出完美的标准答案

(意思是在测试集合上任务A准确率足够高)，比如翻译函数

，可以把英文翻译成中文，再比如摘要函数

，可以给出好的主旨内容……。所以，我们说的通用智能，就是很多复杂任务函数的集合

。达成这种通用人工智能的具体主体，可以是人脑这种碳基湿件(

)，也可以是电脑这种硅基干件(

)。所谓人类智能，无非是说实现能力集合

的主体是人，而AGI（通用人工智能）无非是说实现能力集合E的主体是GPU，如此而已。
假设每个任务我们都可以量化评估，那么当下述条件成立时：

也就是说，如果每项任务，机器都做得和做这个任务最好的人差不多或者比人做得好，那么我们就得到了AGI。当然这是种比较严格的要求，能够满足上述条件的其实已经是超人工智能（Super Artificial Intelligence, SAI）了，因为人作为一个群体，领域专家和普通人做一个任务效果也是天差地别的，如果我们把这里的人定义为领域专家，则是一种对AGI相对高的要求，而如果是普通人，则是相对低的一种AGI要求。
所谓图灵测试，就是指的构造一个测试集合

，帘幕背后一个Carbon-E，一个Silicon-E，用来判断上述条件是否成立。不过话说回来，图灵测试是对AGI的“部分降格测试”，就是说即使你是SGI，也得在能力集合E中的某些任务方面降低智商，表现得弱一点才能通过图灵测试，因为如果你表现得过于强大反而让人很容易判断出“GPU你不是人”。所以图灵测试其实是弱化了上述条件，把里面的大于等于换成了“约等于”，而且图灵测试里的Carbon-E指的是人类的平均水准，GPU在某个任务上表现的太强或者太弱都会被轻易分辨出来。将来某一天，要想让Silicon-E通过图灵测试，很可能需要有意地调低某些方面的能力才行。
大语言模型学到了怎样的智能

大语言模型通过自回归语言模型任务（Autoregressive Language Model），以预测Next Token的方式，利用Transformer结构，从海量数据中自监督得学到了能力集合E中的很多能力，在很多任务上的能力可以和人能力相当或超过人类，当然仍然有不少人类具备的能力它仍然做得很差，无法与人类相比，这是为何我们说大语言模型是通向AGI的一条可行道路，但是目前肯定还未达成AGI的原因。
从上面我们对AGI的形式化描述可看出，顺着这条道路往下走，就是找出那些大语言模型还做得不够好的任务

，然后逐一加强大模型在这些方面的能力。所以这个事情继续往后走，会面临三种可能的未来场景：
场景一：未来我们能够获得AGI，且是一种渐进达成的AGI，就是通过逐渐攻克

里的任务来达成的，我们可以把这种可能称为“渐进智能派”。
场景二：某天AGI就突然爆发性地降临人世，这个概率不太大，但是并非完全不可能。只有一种情况下才会让这种场景发生，就是说Sub_E里的任务之所以做不好，都根源于共性的一个或者两个难题与原因，只要我们能够解决这一两个难题，那么所有问题迎刃而解，AGI一夜降临，我们可以把这种可能称为“突然降临派”。目前看“逻辑能力／数学能力”以及“图像理解”能力可能是其中的两个关键症结所在，所以不能排除哪一天我们有非常简单有效提升大模型这几种基本能力的方法，也许AGI会一夜到来。
场景三：存在另外一种可能，就是未来某天，我们发现大模型的现有机制，从根本上决定了很多人类具备的能力，它是不可能具备的，也就会否决掉大模型能够带来AGI的可能性，这样可能大模型的路子只能通向有限能力，我们需要重新找到一条能够达成AGI的新的道路。目前并不能排除这种可能性，因为我们对于大模型内在运行机制了解得太少，所以无法从机制角度作出能与否的判断。我们可以把这个情形称为“有限智能派”。
每人看法不同，我个人偏乐观一些，觉得上述三个场景的出现概率大概会是：渐进智能派70%的可能性；突然降临派20%的可能；有限智能派10%的可能性。这个问题真正的答案我相信未来两到三年内就会揭晓。
如果我们归纳下现有对大模型机制解释（Mechanistic Interpretation,MI）的研究结果，当然，目前机制解释还没有深入到能直接给出大模型是怎样的方式学到了什么样的智能这种程度，不过大脉略看样子已经初步展现出来。如果在现有研究基础上做一些简单推论，大致可以看出大语言模型形成了怎样的智能。我今年5月份在之前的
张俊林：世界的参数倒影：为何GPT通过Next Token Prediction可以产生智能里也大致探讨过这个问题，目前看有些具体细节可能需要做一些小修正，但是大逻辑目前感觉并没有什么问题，这里算是结合最近半年新的研究结论做个总结。

为什么大模型能通过自然语言训练表现出智能？智能的载体是自然语言吗？-17.jpg

大语言模型的“智能三性”:组合性、可复用性、抽象性

我们知道，大语言模型在很多任务上效果是很好的，比如机器翻译超过了专业机器翻译系统、文本摘要能力也很强、代码能力也不错….。我们拿机器翻译来说，这说明大语言模型已经学到了一个很好的机器翻译函数

，但是机器翻译这个事情是非常复杂的，在Transformer内部大模型是怎么处理的呢？从目前研究结论看，具体解决某个任务，应该通过预训练过程，在Transformer内部形成了解决这个任务的特定任务回路（Circuits），当输入x和任务prompt(比如instruct=”翻译下面内容”)后，Transformer会由低向上地逐步激活各层这个回路涉及到的路径，并把信息逐步上传，最终到最上层token by token地输出正确答案。任务回路由Transformer特定层的特定self attention节点及特定FFN单元构成，attention负责从上文找到重点信息并拷贝到last token位置，负责关键信息集成，FFN负责对信息进行转换。从这点看，和人类大脑的运行机制是非常相似的，人类大脑解决不同任务也会激活特定的脑回路。（目前还没有研究找出机器翻译的回路，这个回路可能会比较复杂，不过已发现了很多相对简单任务的专用回路，我相信每个特定任务应该都能找到对应的神经网络回路）
大模型能做很多任务，意味着Transformer通过预训练形成了很多复杂回路，也就是说这些回路分别负责能力集合

中某个函数f的实现。于是问题来了，不同任务回路之间存在怎样的关系呢？我归纳了类似GPT这种大语言模型智能的所谓“智能三性”，即大模型的智能体现出了组合性、可复用性以及抽象性。
所谓“组合性”，指的是对于复杂的任务函数f来说，大模型通过组合若干简单的子任务回路来达成处理复杂事情的能力，就是类似

这种，大模型存在完成特定功能的子回路，复杂回路由若干简单子回路构成，这体现了大模型通过“组合性”来拆解复杂任务的能力。
所谓“可复用性”，指的是某些相对简单的特定子回路，会出现在多个不同任务的任务回路中，形成了通用子回路被不同任务复用的情况，这个从道理上讲是很合理的，很明显子回路复用增加了模型参数的表达效率，使得模型参数能被更充分地利用。
所谓“抽象性”，指的是Transformer由低到高对输入内容的加工，抽象能力越来越强。底层主要对token以及n-gram的token片段进行表征，属于具体信息编码，在逐步上传过程中，会逐步出现抽象的神经元或者attention head，比如输入内容如果是英文或中文，上层会有专有的神经元进行表征响应，在神经网络中间层也会出现识别句子句法结构的神经元，再往上还会有更抽象的专用神经元。能够具备逐层抽象性是大模型具备高级智能的明显证据。

为什么大模型能通过自然语言训练表现出智能？智能的载体是自然语言吗？-21.jpg

大模型的内在智能组织方式与代码的组织方式是类似的

总体看，大语言模型形成智能的内部组织结构，看起来非常像我们写的代码的内在逻辑结构。比如一个复杂的程序可以拆分成组成模块，每个模块完成相对简单的功能，这体现了功能的组合性；有些基础模块被很多其它模块调用，这体现了功能的可复用性；由简单模块简单功能逐步到复杂功能解决复杂问题，这体现出了一定的抽象性。只不过，程序结构是人类智能赋予的外在组织形式，而大模型的内在运行机制和组织形式是在Next token prediction过程中自己学到的。
关于大模型智能的“组合性”以及“抽象性”在上面列的文章里有提到相关的研究，至于“可复用性”，当时在文中有提及，不过只是当时我个人的猜测，缺乏证据，下半年出现了相关研究，这里列两个证据。

为什么大模型能通过自然语言训练表现出智能？智能的载体是自然语言吗？-22.jpg

CO和IOI任务

一个证据来自于“Circuit Component Reuse Across Tasks in Transformer Language Models”。它研究两个看着有些相似性的任务“Colored Objects Task ”和“Indirect Object Identfication Task”是否存在重叠的任务回路。两个任务具体干什么可以参考上图的例子，那么这两个任务是否会有重叠回路呢？

为什么大模型能通过自然语言训练表现出智能？智能的载体是自然语言吗？-23.jpg

CO和IOI的回路重叠

事实上，两者的功能主要是靠Transformer不同层的特定“注意力头”来实现的，且两个任务存在大量任务回路重叠。参考上图右侧子图，紫色代表IOI回路独有的attention head，黄色代表CO回路特有的attention head，浅蓝色的则是两者共享的attention head，可以看出两个任务存在大量回路重叠，回路重叠比例大约78%。上图左侧子图展示了IOI回路的内部构成，可以看出IOI回路又是由“Duplicate Heads”（负责识别上文中重复出现的内容）、“Induction Heads”（负责从上文拷贝特定的内容到next token输出）以及“S-inhibition Heads”（负责抑制上文中特定内容，不让它出现在next token输出中）等子回路构成，这体现出上面提及的大模型智能的“组合性”及“可复用性”（Induction Heads是广泛被使用的结构，比如ICL应该与这个注意力机制有密切关系）。

为什么大模型能通过自然语言训练表现出智能？智能的载体是自然语言吗？-24.jpg

数字序列预测

另外一个证据来自于“Locating Cross-Task Sequence Continuation Circuits in Transformers”。如上图所示，它探索对于比如数字形式的序列类似“1,2,3,4”以及单词形式的数字序列“one，two,three,four”这两种表面看似不同但内在有相似性的任务，回路是否有重叠。结论是两者存在大量回路重叠，这个内部回路涉及到了“数字检测”、“序列检测”以及“下一数字预测”子回路，这些子回路在这两个任务之间存在大量注意力头的共享。
上面两个证据说明了两个任务越是相似，则有越大比例的内部任务回路是共享的，这充分证明了大模型智能存在任务回路的“可复用性”。
为什么大语言模型可以形成智能

既然大语言模型可以很好完成很多任务，说明起码它具备了能力集合E中的很多能力。那么接下来的问题是：为何大语言模型可以通过预训练获得解决这些任务的能力呢？
目前并没有研究结论，因为这个课题看上去太宽泛了。不过，我相信这个问题的答案很可能极为简单，所有关于大模型秘密的答案应该都藏在预训练数据里。
这个答案很可能是（猜测，谨慎参考）：大模型预训练通过自回归方式进行的Next Token Prediction，它是个非常好的代理任务(Proxy Task)。所谓代理任务，是说尽管我要做机器翻译任务，但是我不直接拿机器翻译数据和目标函数来训练模型，而是通过其它任务比如Next Token预测来实现。那为啥Next Token预测对很多任务的代理效果这么好呢？这是因为，大模型看似以自监督方式在做Next Token预测，但是因为预训练数据的多样性，对于很多任务来说，预训练数据中存在和这些任务有监督学习非常类似的数据，而正是这些数据，使得大模型可以通过看似自监督的方式在进行有监督训练，由此得到了解决很多任务的能力。目前虽无定论，但我相信正确答案离此不远。

为什么大模型能通过自然语言训练表现出智能？智能的载体是自然语言吗？-25.jpg

与翻译函数建立相关的互联网网页数据

我们拿具体任务来说，比如为何大语言模型翻译能力这么强？你看看上面这张图应该就明白为什么了。互联网上存在大量类似上面的双语网页，一句中文对应一句英文，当大模型在做Next Token Prediction的时候，当Next Token是中文对应的英文的时候，其实就是在做机器翻译的有监督学习，只不过是以Next token 这种看似自监督的模式而已。

为什么大模型能通过自然语言训练表现出智能？智能的载体是自然语言吗？-26.jpg

与数学计算及情感计算有关的互联网信息

再比如，大模型的数学能力从何而来？情感计算能力从何而来？看看上面我给的两个例子大概就明白了，当Next Token预测到“等于号”的时候，以及当Next Token预测到“好评”的时候，如果预训练数据中大量存在此类数据，就是在对数学和情感判断做有监督训练，只不过是以Next Token的自监督形式存在而已，本质上还是在做有监督学习。很多其它能力的获得大概率跟这些情况是很类似的。
所以原则上，如果我们觉得大模型哪些能力还不够好，那很简单，把这个任务相关或类似的数据加进去，应该就会直接提升这种任务的效果。而这得益于Next Token Prediction这种好的代理任务，以及互联网开放数据的多样性，包含了类似有监督学习形式的任务数据。
总而言之，数据是大模型智能的最关键因素，数据多样性决定了大模型智能的下限（提升效果较差任务的效果），而数据质量决定了大模型智能的上限（提升效果较好任务的效果）。

发表于 2025-4-9 18:18:25

一句话简单回答——就是至少目前人类还没有找到一条通往AGI的可行路径，大语言模型这条路径所体现出来的人工智能，看起来可行性最高。
自从大模型爆火之后，我周围很多研究机器翻译十多年甚至几十年的朋友都在感慨，NLP经历了规则、统计和神经网络的三个阶段，筚路蓝缕，终于迎来了最黄金的时期。但，GPT的出现，并不等于机器就具备了“智能“”智慧“。因为要做出可解释、有知识、有道德、可自我学习，能准确进行推理的NLP系统，实际上是一个很高的目标，现在我们还离得很远。
所以，首先我们来讨论一下到底什么是自然语言。
<hr/>人类的自然语言

这是个很难定义清楚的概念。
本质上，语言的出现是为了人类之间的沟通（我们当然希望计算机能全部拥有人类的视觉、听觉、语言和行动的能力，但语言是人类区别于动物的最重要的特征）。所以从这个意义上来说，研究自然语言，其实就是在研究如何让机器拥有更多的“认知智能”。
机器理解人类的语言很难吗？很难。
别看我们天天说话，聊八卦看新闻，看似轻松得很，但对计算机来说，人类的自然语言是非常难掌握的。这是因为人类语言最大的问题，就是知识表示的规则模糊性和歧义性。毕竟人类语言不是工程师设计出来的，而是人类发展过程中，“众约俗成”变成固定词汇和语法——没什么道理可言——说的人多了，大家就都认可了。
这种集体参与的结果，就是语词的含义和它们的使用规则，都非常不统一。一词多义，一义多词，在实际生活的使用场景中非常常见。
先看下面号称“中文十级”的两句话：

* 校长说：“校服上除了校徽别别别的，让你们别别别的，别别别的，非要别别的。”
* 来到杨过曾经生活过的地方，小龙女动情地说：“我也想过过过儿过过的生活”

再来看下面这句含有“歧义性”的中文语言表述：

第一场，中国女排队大胜美国队；第二场，中国女排队大败日本队。请问：中国女排队赢了几场？

上文中女排的“大胜”和“大败”，指代的都是“赢得比赛”这一个意思。这个指代虽然有点微妙，但根据上下文，我们还是能比较容易地做出判断。而想要计算机要做到这一点，那可就难得多了。
此外，人类的自然语言，除了歧义性之外，自然语言处理面临的难点还包括抽象性、组合性、进化性等。
所以从人类语言本质属性的角度来讲，自然语言处理属于认知智能，理解它、掌握它，就需要机器具备很强的抽象和推理能力，也因此，说“自然语言是智能的载体”，是完全说得过去的。
<hr/>计算机算法的局限：理解自然语言

现阶段计算机上的所有行为，说到底，都可以转换为数学和逻辑运算。如果把计算机的行为抽象出来看，就是输入、计算、输出。

为了让计算机模仿人类思维、理解人类自然语言，人们先是发明了编程。比如，在冯诺伊曼计算机上，工程师编写各种处理规则。类似于：“小球如果碰到墙壁，就弹回来”，这些场景需要人类写出不同的程序来表达。
虽然这种解决问题的方式有点“笨笨的”，但只要程序能运行起来，还是能提升了很多工作效率。

不过比较无奈的是，现实中的问题总是千变万化。你写的某个程序能让“小球如果碰到墙壁就弹回来”，但当拿到真实的应用场景中的时候，你往往会发现，计算机让小球碰壁弹回来后，小球可能还会向另一处悬崖滚下去，然后粉身碎骨。

于是，工程师不得不使劲编写更多的程序，来弥补各种漏洞（Bug），以便让计算机学会应付各种可能的变数。
但变数无穷尽，而人力、时间有穷尽，在不断动态发展的世界中，漏洞是永远补不完的。
退而求其次，人们转而教计算机某个单一技能。比如下棋。但如果计算机只会下棋这一件事，在实际生产生活中也没太大的作用。
于是有人想：咱们是不是应该改个路子，让计算机模仿人类的大脑不就行了吗？
这个研究开始很让人惊喜，因为人们发现，人脑的基本工作单元是神经元，也就是神经细胞。而神经细胞用的是二进制！

科学家很兴奋，打算用电子元件模仿神经元，做出“人造大脑”。理论上说，我们造出一个神经网络，就像一个初生婴儿的大脑，那么我们可以人类所有的已有知识都输入给它，让它像婴儿一样去探索世界。如果能实现这个目标，那么人工智能就不再只局限于某个单一技能了。
但很快科学家发现，人类的大脑实在太神奇了。“看，那是只狗狗！”，小朋友一句看似非常简单的判断，实际上需要大脑做千万次运算。人类大脑只有一公斤多一点，小这么个小小的东西，运算速度却是计算机不可企及的。
就像之前人类想要飞上蓝天，期望通过模仿鸟的飞翔来制造飞机，却一直没能成功，直到乔治·凯利提出空气动力学才迎来了转机。研究自然语言处理的早期科学家，也走过类似“鸟飞派”的弯路：他们试图让计算机通过模仿人的大脑来理解自然语言的含义，结果导致从上世纪50年代到70年代的研究成果寥寥。
但1970年以后“统计语言学”的出现，终于让自然语言处理发生了转机：弗里德里克·贾里尼克和他领导的IBM华生实验室，把自然语言分析变成了一个简单的数学问题——一个统计模型，即统计语言模型。他的出发点很简单：一个句子是否合理，不需要再分析语法和语义了，只看它的可能性大小就可以了。
2005年后，随着Google基于统计方法的翻译系统全面超过基于规则方法的SysTran翻译系统，彻底将基于规则的自然语言处理方法消灭。自然语言处理的研究也从单纯的句法分析和语义理解转换到了机器翻译、语义识别、文本生成、数据挖掘和知识获取。
而自2008年起，深度学习开始在语音和图像发挥威力。研究者先是把深度学习用于特征计算或者建立一个新的特征，然后在原有的统计学习框架下体验效果。比如，搜索引擎加入了深度学习的检索词和文档的相似度计算，以提升搜索的相关度。
自2014年以来，人们尝试直接通过深度学习建模，进行端对端的训练，并已经在机器翻译、问答、阅读理解等领域取得了进展，于是出现了深度学习的热潮。
这一切，为GPT的到来埋下了伏笔。
<hr/>为什么大模型能通过自然语言训练表现出智能？

如开头提到的，自然语言是人类思维的载体，也是知识凝练和传承的载体。智能跟语言密不可分。人类的思想，科技、历史、文明都是通过语言文字来记载和承载的。
也因此，自然语言跟机器语言、数学语言相比最大的不同是存在规则模糊性和歧义性（即语言可以有各种理解方式），特别是当各种模糊性和歧义性组合在一起，很容易就形成一个难以解决的爆炸性问题，这就意味着需要有一种类似于今天的大模型这样的“智能体”或者说，需要一种“具备智力”的工具和解决方法出现。大模型能学会理解和使用人类语言，也就意味着它有能力在各种复杂的事物中寻找模式和规则，然后用这些规则做推理。
我们可以从技术演进的角度来看，过去几十年来，科学家一直在寻求解决知识的表示以及知识调用的方法（可以说每次知识表示和调用方式的转变都会引起产业界巨大的变革）。
在大规模出现之前，知识最早是以数据库的方式存储在计算机内部，你想调用它就需要 SQL 语句等，需要人去适应机器，即使是这样今天看起来比较“Low”的技术，当时也产生了很多伟大的公司，如 Oracle 等。
后来，大量的知识是存储在互联网里，这种知识是非结构化存储的，包括文本、图像，甚至视频等，要想调用这里面的知识，我们就不需要学 SQL 语句，只要用关键词，通过搜索引擎的方式就可以把存储在互联网中的知识调用出来。现在 ChatGPT 仍然会存互联网的知识，但是它不是以显示的方式存储，而是以参数的方式存储在大模型中。
ChatGPT以及一系列超大规模预训练语言模型的成功，为自然语言处理带来新的范式变迁——即从以BERT为代表的预训练+精调（Fine-tuning）范式，转换为了以GPT-3为代表的预训练+提示（Prompting）的范式。

我们再回过头来看，GPT-3 两年前就能完成这样的任务，但为什么没有引起这么大的轰动呢？因为它没有解决好另外一部分问题，即怎样把这些知识调用出来。而ChatGPT就很好的解决了这个问题——通过自然语言的方式就可以很好的把这些知识调用出来。
ChatGPT 等于把这两块打通了，让计算机有了智能涌现（顿悟）。这才引发了人工智能方向性的改变。说白了，也就是大模型在学习人类自然语言的同时，其实是把语言承载的知识也都学会了，TA能自己从数据里总结规律。

这也正是GPT不同寻常的地方——传统的计算机技术，由基于公式和统计，可以做非常精确的计算。而GPT做的，不是基于“已有命令“行事，其实这就具备了人类的本领：观察世界，总结规律，获取新知识。
不过，尽管今天的大模型能够生成非常连贯而有逻辑性的语篇，对语言自身规律的掌握已经达到甚至超过普通人的水平。但是，对语言所负载的知识、经验，尤其是道德、文化、价值观等的把握，大模型还需要向人学习。
这背后，是因为现阶段，人工智能的本质，仍然只是一种数学统计模型的具体应用。说白了，本质上还是一个计算器。只是这个计算公式超级复杂，运算速度超快而已（所谓的“大力出奇迹“）。

所以很多人都在期待通用人工智能的来临，期待未来AI能用这些知识解决复杂的问题，像人一样进行推理、发明和创造。从这个意义上来说，从语言到知识再到智能，这就算是大模型到通用人工智能的总体路线了吧。

发表于 2025-4-9 18:33:05

这个问题之前OpenAI 的核心研发人员 Jack Rae在一次分享中解答过。下面我们就分享下如何通过压缩理论，解释为什么像GPT这样的自然语言模型拥有智能。
1. 压缩即智能——为什么ChatGPT拥有智能

目前规模较大的语言模型，在训练基础模型时，都采用了预测下一个词的任务。这个任务非常简单，就是根据语言中前面的词，来生成下一个词。这样学习到的似乎只是词之间的表面统计关系，怎么就能体现出智能呢？这确实很难理解。
2月28日，OpenAI 的核心研发人员 Jack Rae 在 Stanford MLSys Seminar 上分享了一个主题：压缩与人工通用智能。他的核心观点是：人工通用智能的基础模型应该能够最大程度地无损压缩有效信息。他还分析了这个目标的合理性，以及 OpenAI 是如何按照这个目标进行工作的。
Jack Rae 是 OpenAI 的团队负责人，主要研究大型语言模型和远程记忆。他曾在 DeepMind 工作了 8年，领导了大型语言模型研究组。在分享中，Jack Rae 提出了以下两个核心观点。

压缩就是智能
语言模型就是压缩（GPT 的预测下一个词的任务本质上是对训练数据的无损压缩）。他通过论证压缩就是智能，以及 GPT 的训练过程是对数据的无损压缩，从而证明了 GPT 具有智能。

Jack Rae 在 Stanford ML Seminar 上的分享非常精彩，让人感觉豁然开朗。他用压缩理论来解释为什么 GPT 具有智能，是一个很有创意的观点。下面我们就具体介绍一下 Jack Rae 是如何论证的。
1.1 直观理解AGI

在探讨压缩如何能够实现人工通用智能之前，先来了解一下什么是人工通用智能。“中文房间”是约翰·塞尔（John Searle）在1980年提出的一个著名的思想实验，用来质疑计算机是否能够真正理解语言。实验的设想可以通过下面的文字描述。
一个只会说英语，对中文一无所知的人被关在一个密闭的房间里。房间里只有一个小窗口，还有一本中英文对照的手册，以及足够的纸和笔。有人从窗口递进来一些写着中文的纸条。房间里的人根据手册上的规则，把这些纸条翻译成中文，并用中文写回去。尽管他完全不懂中文，但是通过这个过程，他可以让房间外的人认为他会说流利的中文。这就是“中文房间”的实验，图1-1展示了它的示意图。

图1-1 中文房间

一个庞大而烦琐的手册说明了这个人的智能水平很低，因为他只能按照手册上的指示去做，一旦遇到手册中没有的情况，他就束手无策了。
如果我们能够从海量的数据中学习到一些语法和规则，那么就可以用一个简洁而高效的手册来指导这个人，这样他就能够更灵活地应对各种情况，表现出更高的智能水平（泛化能力更强）。
手册的厚度反映了智能的强度。手册越厚，说明智能越弱；手册越薄，说明智能越强。就像在公司里，你雇用一个人，他能力越强，你需要给他的指示就越少；他能力越弱，你需要给他的指示就越多。
这个例子用一个比较形象的方式解释了为什么压缩就是智能。
1.2 如何实现无损压缩

假设 Alice 需要把一个（可能无限长）的数据集

从遥远的半人马座星系传输回地球上的 Bob，假设如下。

表示一个 token ，词表大小，
Alice 和 Bob 都有足够的计算资源
假设现在已经传输了， Alice 会将下一个编码为后传给 Bob
Alice 希望 最小化传输的数据量 S ，以 number of bits 比特数量来衡量。

先看一下基准传输方法。由于

的可能性有m = 256种，所以

可以表示为一个8比特的整数（即1字节）。假如当

时，

表示

。这时需要传输的比特数

。另外，Alice还要将上面的代码写成代码

，在一开始传输给Bob。图1-2是编码数据传输的示意图。

为什么大模型能通过自然语言训练表现出智能？智能的载体是自然语言吗？-16.jpg

图1-2 编码数据传输

这样传输一个大小为n的数据集的

的代价

可以表示为如下形式。

接下来从信息论角度解释一下基准的信息量。
基准方法对于

的分布没有先验知识，因此其概率分布故

是一个离散均匀分布。此时信息量表示为如下形式。

因此，

也可以看作是

的信息量。
在介绍了基准方法之后，接下来介绍一下基于神经网络的无损压缩方法。想要利用一个自回归神经网络来实现压缩。具体来说，假设如下的一个场景。

Alice首先把一个自回归神经网络（比如GPT）的训练代码发送给 Bob。这个网络的输入是，输出是下一个数据的概率分布。注意，网络的“大小”是由决定的，但网络的权重是由初始化并不断训练得到的。可以把网络的参数看作的一个函数。图1-3是概率分布的示意图。

为什么大模型能通过自然语言训练表现出智能？智能的载体是自然语言吗？-35.jpg

图1-3 当前传输数据的概率分布

网络的权重是由 Alice 和 Bob 各自独立地初始化和训练的，但他们使用相同的方法和随机种子，这样他们的初始权重是相同的，并且会随着数据的传输而保持同步更新，因此是的函数。
假设Alice已经把发送给了Bob，现在她要把编码为发送给Bob。此时Alice 和 Bob 根据相同的代码和相同的数据训练了相同的网络。因此他们对的概率分布也有相同的预测。为了简便起见，后面省略条件部分，直接写作。
考虑使用算术编码的二分查找法来把编码为，假设可能等于 0，1，2，3 四个值，它们出现的概率分别为 0.2，0.25，0.22，0.175。如果要把编码成，可以用以下过程来表示。每一次的动作都有两种可能的结果：向左或向右。
如果使用1表示向右，0表示向左，那么上面的查找过程便可以表示为一个长度为 3 的动作序列。[a1, a2, a3] = [1, 0, 1]，刚好可以用一个3比特的二进制数字表示。
Alice将这个动作序列编码为一个3比特的二进制数字，发送给Bob。等价于二分查找的次数。在这个例子里面
Bob收到后，得到的过程为：首先Bob也预测得到分布；然后根据代表的动作序列，复现二分查找的过程，得到 0.6875 这个有限精度的实数；找到这个实数所在的区间是第4个（zero-based）区间，则 Bob 解码

这样一来，Alice 就实现了把

按照 Alice 和 Bob 共同掌握的概率分布编码成

，并且把它无损地传输给 Bob。Bob 也可以按照同样的概率分布把

解码回

。这个过程比基准方法节省了很多传输的数据量。原本需要传8比特，现在只需要传3比特。图1-4是整个过程的示意图。

为什么大模型能通过自然语言训练表现出智能？智能的载体是自然语言吗？-66.jpg

图1-4 算术编码的二分查找过程

2. GPT是对数据的无损压缩

前面介绍了算术编码的原理，它可以实现无损压缩，从而减少数据传输的量。我们的目标是最小化传输的量，也就是最小化二分查找的次数。
为了计算二分查找的次数的上界，可以用一个直观的方法。还是用上面的例子，

。将

的区间均匀铺满整个

区间，假设

，那么会分成

个区间，那么大约要查询

次。如果不考虑取整的误差，可以得到二分查找的次数，表示为如下的形式。

实际上，二分查找的次数的上界可以表示为如下的形式。

这样就可以知道传输数据集

的代价

，表示为如下的形式。

如果仔细观察，会发现

其实就是训练时

这个 token 的 loss。所以可以进一步发现

这一项就是训练曲线下方的面积，具体示例如图2-1所示。

为什么大模型能通过自然语言训练表现出智能？智能的载体是自然语言吗？-81.jpg

图2-1 训练过程的损失值曲线

因此，GPT的训练过程本质上就是对整个数据集D的无损压缩。图2-2详细展示了GPT无损压缩的每一项内容。

为什么大模型能通过自然语言训练表现出智能？智能的载体是自然语言吗？-82.jpg

图2-2 GPT的无损压缩

按照上述方式计算并存储

，那么 &#34;训练代码 + 所有的

&#34; 便是对数据集

的无损压缩。只是在平时训练中计算得到下一个token的分布，并且计算loss进行反传后，便扔掉了这个分布，自然也没有计算并存储

。但是“无损压缩”和“模型训练”的过程是等价的。
有了压缩的量化公式，便可以很方便地计算压缩率，下面是压缩率的计算公式。

这也解释了为什么模型越大，往往表现越智能，更容易出现涌现。这是因为模型越大，往往loss越低，从而压缩率越高，模型越智能。（这里是根据数据压缩理论，就是压缩率越高，模型越智能）。

为什么大模型能通过自然语言训练表现出智能？智能的载体是自然语言吗？-88.jpg

图2-3 损失值曲线下的面积表示为数据集的无损压缩

上图2-3是 LLaMA 模型的一些训练曲线，绿线和红线表示的两个模型只在数据集上训练了1个epoch，因此可以把训练损失视为|D|中下一个词（next-token）预测损失。同时也可以粗略地估计模型的描述长度（～1MB）。即便模型的参数量不同，但LLaMA 33B和LLaMA 65B两个模型有着相同的数据描述长度（用于训练的代码相同）。但65B模型显然有着更低的训练损失，把两项相加，可以看出65B实际上是更好的压缩器。
下图2-4是更具体的数据，用于初始化和训练模型的代码约为 1MB，粗略地计算负对数似然大约是 400GB，而用于训练的原始数据是5.6TB的文本，因此该模型的压缩率为14倍。而Hutter Prize上最好的文本压缩器能实现8.7倍的压缩。接下来，讨论一下压缩率的变化。

为什么大模型能通过自然语言训练表现出智能？智能的载体是自然语言吗？-89.jpg

图2-4 LLaMa压缩率计算

假设训练稳定，loss 平滑下降收敛到

，那么当数据集

无限增长时，压缩的极限可以表示为如下形式。

当

（预测得完全准确），压缩率的曲线如图2-5所示。由此可见，预测下一个词（next token prection）看似简单，但是却可以用压缩理论完美地解释，这也是为什么OpenAI坚持“预测下一个词”的原因。

为什么大模型能通过自然语言训练表现出智能？智能的载体是自然语言吗？-94.jpg

图2-5 压缩率变化曲线

虽然像GPT这样的大模型可以实现压缩机制，但是这种压缩方式也有局限性。比如对于所有的一切都进行压缩非常不现实，像素级的图像建模开销非常大，对视频进行像素级别的建模非常不现实。还有就是非常多在现实中的数据可能是无法直接观测到的，不能指望通过压缩所有可观测到的数据实现通用人工智能。以围棋游戏AlphaZero为例，观察有限数量的人类游戏不足以实现真实的突破。相反，需要其智能体（Agent）自行进行对弈并收集数据中间的数据。
参考

绝密伏击：压缩即智能：为什么 ChatGPT 拥有智能？

发表于 2025-4-9 18:43:01

我建议程序员尤其是SDE出身的程序员在这种问题下谨慎回答。因为AI目前的底层解释性和方向是不明确和发展的，不引用前沿论文而用通俗语言解释固然可以获得普罗大众的赞同，但这一定程度上难免会含有错误与臆断，影响社区环境。
这个就像60年代的载人航天，每个人都能看见成果，大部分人都能理解原理，少数人可以实现工程，但只有极少数最个别的人能真正验证与发展背后的物理学。
我作为从业者斗胆讲一点自己的看法。
什么是智能？像LeCun这一派机器学习出身的保守派AI科学家是非常注重可解释性与智能的完备性的。所以过去几十年的研究很多都是从数学，脑科学角度来进行的，就连LeCun本人这个深度学习的奠基人之一在很长的一段时间里没有发展这个东西而是在模式识别和可解释的机器学习上进行研究。这一派人一般认为智能必须要是可解释性的，而且还要是能有自我意识的就像人类一样。他们现在在整个学界里面是保守派，并且越来越少，为什么？
因为神经网络的迅速发展至少证明了我们不需要知道人类如何思考这些问题就能达到同样甚至更好的解决效果。所以在工程领域目前我们是绕开“智能”这个形而上的问题的。
根据我的了解，这个问题在学者里面有非常多的见解，但是主要可以划分两派。
A:智能是以行为结果决定的，并且“人工智能”并不需要和“人的智能”拟合。我们可以创造出新的智能形式，这种智能甚至可以更强。
B:这个世界上的智能只有一种就是人类或者高等动物大脑里的智能，它的原理是不明确的，但是本质是数学的。我们必须要首先破解思维本身才能创造真正的智能，别无他路，其余都是“高明的模仿”。
这两派其实各有硬伤。
A这一派目前还有一个高山在于自我意识，因为如果在不了解底层原理的情况下，你甚至没有方法论去证明你是否创造了智能。
另外一个问题是，人工智能在许多计算领域上表现得非常好，而在人类最简单的一些活动上表现得非常差。
了解机器人SLAM的朋友应该有体会，像翻过围墙，识别物体，寻路等人类最基本的行为上，AI表现得非常糟糕，完全无法匹配他们在计算和语言问题上的表现。批评者认为这暗示了这说明这种智能是完全统计的，也就是它是“纸面”的。
B派的硬伤在于脑科学，神经学或者是强调手搓的模式识别在过去这些年发展得非常缓慢。人类面临一个尴尬的处境:利用自己的智能了解自己的智能难度甚至大过创造另一种智能形式更好地解决问题。
还有一些问题在于也很难证明人类的智能是否和其余高等动物的智能是一脉相承的，更无法证明其是完美的。这里的意义在于如果人类的智能既不独特，也不完美，那我们完全没有必要追随人类的智能。
归根到底，什么是智能，目前来说唯一的共识就是要基于任务表现，这是没有分歧的。哪怕你认为大语言模型是基于统计的非智能模型，你也无法否认它在许多问题上胜过了人类的“智能”，这足以让工业界接受它是“智能”。
而且，LLM的发展本身就说明了语料数量的飞跃可以导致智能表现的质变，就跟深度学习的力大砖飞一样，我们有一定理由等待它继续发展看能不能发生新的飞跃。粗暴的认为它是统计的，所以一定是不智能的，前卫地说是“人类至上主义者”的可笑傲慢。
当然，我作为从业者，我也对LLM持有批判态度，因为其致命缺陷之一——无法自我验证可以说是不能接受的。所以我个人认为目前在可解释性上应当投入更多的资源和时间。
但显然，如今刊会学生要投稿，审稿人教授要吃饭，这个社区现在早就“热到”只有非常少的人还在处理这些问题了。毕竟新工作新模型解决实际问题带来金钱与cite太诱人了，我也抵挡不了。

发表于 2025-4-9 18:55:15

这是一个很本质的好问题，我想抛砖引玉地谈谈自己的认识。未必正确，欢迎探讨。
在开始回答之前，我提交了对题面的修改，希望将“语言”进一步界定为“自然语言”，我想这应该是提问者的本意。
首先，我想用几句话，简短地回答题面问题：

大模型并未拥有真正的智能；现在的大模型，顶多在某些受限领域拥有了一定程度的智能。
人工智能不可能通过自然语言训练拥有完全智能，完全智能需要的环境更复杂。
自然语言不是智能的载体，但自然语言是人类智能的载体；智能系统并不绝对需要自然语言。
大模型与自然语言的关系，当下是AI向人类学习，将来是AI服务于人类。

接下来，我会解释为什么我得到了上面的结论。
智能的定义

我用Google搜索“智能”，排名第一的是维基百科词条“人工智能”。其中第一句话这样说：

人工智能（英语：artificial intelligence，缩写为AI）亦称机器智能，指由人制造出来的机器所表现出来的智能。通常人工智能是指通过普通计算机程序来呈现人类智能的技术。

其中，智能带有一个超链接，指向另一个词条“智慧”。其中第一句话这样说：

智慧，未有一致或常见的定义与标准，但可指结构具高复杂性的生物或电脑所具有的基于或仿于神经系统（物质基础）之大脑额叶与边缘系统为主的一种综合的机能、功能与互动状态，……

于是，我们不妨做个定义：任何展现或者扩展了人类智能的计算机程序，都可以被称为人工智能。从这个意义上看，计算机本身就是人工智能，因为它极大地拓展了人类的运算速度。事实上，在电子计算机普及之前，大部分人都会认为它代表着高水平的人工智能；只不过现在人类的要求进一步提高，计算机不再被认为是人工智能，即使它们的速度比起上个世纪中叶已经快了几个数量级。
从上面的例子就可以看出，人工智能并没有十分严格的定义，其定义甚至会随着人类社会的进步而不断变化。这里引用哲学家Nick Bostrom在2006年所说的一句话：

A lot of cutting edge AI has filtered into general applications, often without being called AI because once something becomes useful enough and common enough it&#39;s not labeled AI anymore.

他观察到了一个很有趣的现象（悖论）：在某项任务（如人脸识别、围棋博弈等）还无法被计算机征服时，人们兴致勃勃地冠之以人工智能的名头，研究其各种解决方案；而当它被解决以后，人类逐渐将其作为常见系统的一部分，或者发现它与真正的智能行为有所差异，也就倾向于不再将其称为人工智能了。
所以，我们要牢记于心：智能并非一成不变，而是具有相当主观成分的一个概念。
人类对于人工智能的期待

基于上述分析，我通常会采用一种间接的方式来描述人工智能，即探讨人工智能的两大作用：

作用一：替代人类重复劳动。其典型案例为当前计算机视觉中的检测/监控类算法、自然语言处理中的机器翻译类算法，等。
作用二：拓展人类智力边界。其典型案例包括能够战胜人类的棋类AI、一大类在传统科学领域取得进展的AI科学计算（AI4Science）算法，等。

注意，这与前面的定义（任何展现或者扩展了人类智能的计算机程序）是相对应的，作用一即展现人类智能，作用二即拓展人类智能。上述间接描述的好处在于，它天然地考虑了人工智能随时代演进的要求，就像Nick Bostrom所说的那样，把一些已经解决的问题排除出人工智能的范畴。
如果一定要给人工智能找个形式化的定义，我倾向于采用Ben Goertzel在2007年写的《Artificial General Intelligence》（即《通用人工智能》，AGI）一书的定义。

人工智能应当在这样一个环境下实现：当智能体观察到一系列状态时，可以从某个集合里选择相应的行动，并且得到相应的奖励。通用人工智能的目标是学习一种映射，使得智能体在环境中行动时，得到的累计奖励最大化。

也就是说，人工智能能够适应任何一个（可交互的）环境，并且在其中做出一系列行为，获取最多的奖励。从这个角度看，带有chat功能的大语言模型，完美地契合了上述定义，在纯文本环境下通过对话实现了交互能力，能够完成一系列任务，最终使得奖励（用户评分）最大化。
大语言模型尚未具有真正的智能

既然大语言模型完美符合定义，又取得了公认的成功，为什么我还说它没有真正的智能呢？因为从上面的定义看，智能是依赖于环境而产生的。也就是说，怎样的环境，就会孵化出怎样的智能；但不幸的是，现在可用的环境还太简单了，无法产生真正的智能。
我们举两个例子来弄清这一点。
第一个例子来自棋类AI，典型例子是AlphaGo和AlphaZero。它们的出现，宣告了一个事实：对于任何规则确定、完全信息博弈下的棋类游戏，AI已经全面超越人类水平。这件事的本质是，在此类游戏中，环境完全确定且不会发生变化，于是AI可以从环境中无限采样训练数据，最终通过左右互博的方式不断提升能力。
第二个例子来自大语言模型，典型例子是ChatGPT系列。这类模型需要两阶段的训练，第一阶段在无监督语料上做自回归学习，第二阶段在指令监督语料上做对齐学习。比起棋类游戏，对话环境要复杂得多，目前还不存在已知方法能够无限制地生成高质量的对话数据。换句话说，虽然收集大量人类指令能够近似出这个对话环境，但它并不完备；因此大语言模型无法应对从未采样到的数据，体现为hallucination现象或者在各种垂直任务（如简单数学计算）上的不稳定性。
总结这段，就是我开始的观点：大语言模型尚未拥有完全的智能，至多在受限领域中展现了一定程度智能，而其本质原因是交互环境的不完备性。如果将这个讨论拓展到计算机视觉领域，那么显而易见地，环境构建将加困难，因而视觉模型的完全智能也就更加遥远。不过好在，大语言模型的初步成功，指出了一个可行的方向：构建愈发完善的视觉环境，进而推动视觉AGI的发展。关于这个方面的论述，可以参考下面的文章。
谢凌曦：【VALSE 2023】走向计算机视觉的通用人工智能：GPT和大语言模型带来的启发自然语言是人类与智能系统的交互方式

最后，我想谈谈智能的载体。显然，在上述AGI的定义中，并没有任何对自然语言的要求。换句话说，智能体是否拥有自然语言能力，完全取决于所处的环境是否包括自然语言。在大自然中，许多不具有语言的生物依然拥有智能；在计算机中，AlphaGo等超越人类能力的人工智能程序也并不需要通过自然语言来交流和解释自身的行为。因此，我完全有理由相信，自然语言并不是人工智能的必要条件，只是人工智能与人类交流的一种手段。
在这里，我想稍微跨越AI的边界，讨论一下人类为何需要自然语言。这很可能是人类处理信息速度较慢的结果。与动物相比，人类需要处理的信息更复杂也更多，但是人类的大脑运算速度非常慢，个体之间也缺乏能够快速传递大量信息的方式（信息时代之前）。因此，人类不得不设计一种抽象的、信息密度较高的载体，以支持在个体间交流和传递信息。
我不禁想引用刘慈欣《乡村教师》里的一段话：

“天啊！这颗行星上的文明不是3C级，是5B级！！”看着蓝84210号舰从一千光年之外发回的检测报告，参议员惊呼起来。
人类城市的摩天大楼群的影像在旗舰上方的太空中显现。
“他们已经开始使用核能，并用化学推进方式进入太空，甚至已登上了他们所在行星的卫星。”
“他们基本特征是什么？”舰队统帅问。
“您想知道哪些方面？”蓝84210号上的值勤军官问。
“比如，这个行星上生命体记忆遗传的等级是多少？”
“他们没有记忆遗传，所有记忆都是后天取得的。”
“那么，他们的个体相互之间的信息交流方式是什么？”
“极其原始，也十分罕见。他们身体内有一种很薄的器官，这种器官在这个行星以氧氮为主的大气中振动时可产生声波，同时把要传输的信息调制到声波之中，接收方也用一种薄膜器官从声波中接收信息。”
“这种方式信息传输的速率是多大？”
“大约每秒1至10比特。”
“什么？！”旗舰上听到这话的所有人都大笑起来。
“真的是每秒1至10比特，我们开始也不相信，但反复核实过。”
“上尉，你是个白痴吗？！”舰队统帅大怒，“你是想告诉我们，一种没有记忆遗传，相互间用声波进行信息交流，并且是以令人难以置信的每秒1至10比特的速率进行交流的物种，能创造出5B级文明？！而且这种文明是在没有任何外部高级文明培植的情况下自行进化的？！”
“但，阁下，确实如此。”
……

大概就是人类“每秒1至10比特的信息传递速率”，才催生了自然语言这种载体吧。
最后的最后，我们要牢记：人工智能的发展原则之一是以人为本。因此，虽然智能不需要自然语言，但是人工智能需要自然语言，以作为与人类交流的载体或者接口（interface）。当下，人工智能可以从自然语言中学习人类的知识，并且在最简单的纯文本环境中探索出一条发展路径（也就是现在的大语言模型）；将来，即使真正的AGI实现了，那么它也需要通过自然语言，来最终服务于人类。

为什么大模型能通过自然语言训练表现出智能？智能的载体是自然语言吗？

本周热门