如何看待陶哲轩等数学家大力推动的 AI 数学证明?

如题，AI证明在多大程度上可以辅助数学家和替代数学家？理论物理学家、化学家和生物学家呢？
这和吴文俊院士更早推动的机器证明有何异同？
相关中英文报道：
陶哲轩宣布“等式理论计划”成功，人类AI协作，57天完成2200万+数学关系证明
Terence Tao’s vision of AI assistants in research mathematics « Math Scholar
(许多来自量子位、新智元、机器之心)
部分介绍性论文：
[2405.19973] A Triumvirate of AI Driven Theoretical Discovery
[2402.13321] Rigor with Machine Learning from Field Theory to the Poincaré Conjecture
反面报道：
UCLA、MIT数学家推翻39年经典数学猜想！AI证明卡在99.99%，人类最终证伪
乌龙：
Grok 3证明黎曼猜想，训练遭灾难性事件？数学家称不夸张，两年内AI将解出千禧年难题

发表于 2025-4-18 13:39:36

资瓷一下楼上刘宇航网友的观点，我上回让deepseek给我讲什么叫森重文的bend and break，在我提醒了它三四次要模p的前提下，它愣是没想到要迭代Frobenius。
（简单来说就是我问它一个数学证明，它讲了半天开头和结尾，中间最关键的一步它领悟不了，纯属做官把印丢了）
就现在这些通用AI的数理化水平，看起来还是难堪大用

发表于 2025-4-18 13:53:41

我对于AI证明生成兴趣不大（后面会解释为什么）

我更关心证明机械验证。把人类写的证明翻译成Lean之类的机器语言然后验证。如果能搞一个AI审稿就厉害了

<hr/>
实际上一篇真正好的数学论文，是发现一个新的令人兴奋的现象或者结构；然后为了说服力，用这个新的现象或者结构去推进一些已经存在的著名猜想（的某些特殊情况）；同时提出一个新的有影响力的猜测。根据我的经验，（对于新的猜测）如果细致地考察几个特殊情况，往往容易证明一些最简单的case的；然后把这些case的共性归纳一下，总结成技术性条件，总是可以得到一个看起来还算decent的定理。技术细腻一点可以解决30%，技术糙一点解决5%，但是谁在乎呢？反而是只解决5%才能给后面的人（包括未来的自己）留灌水的空间是不是（而且没有对比怎么看出你的技术好？一下子就做出来了90%反而很容易被人低估这个工作的难度）

所以回到一开始说的，我不会很在意证明。最重要的那一步是有敏锐的嗅觉去发现新的现象。至于证明，如果实在证不出来，我会和自己和解，加几个条件；往往很多年以后我会慢慢把这些条件一个一个去掉

如果一个大猜想，被一个复杂晦涩的AI生成证明干掉了，我觉得其实影响会很小。我会说从历史上看理解证明会比证明本身重要的多：比如Scholze曾说过他发展perfectoid空间是为了理解Fontaine晦涩的理论。

至于现在hype的AI，我其实非常怀疑其能力；在解决证明生成前，先解决证明验证这个简单地多的问题先。

发表于 2025-4-18 14:06:30

今天继续测试DeepSeek的数学水平。
首先问了两个测试他知识量的问题：“100!+1阶群是否为可解群”
DS老师花了十几秒就想到了Feit-Thompson定理：奇数阶群都是可解群。那没什么好说的。
第二个是黎曼几何里的：“两个RP^2的乘积是否容许正截面曲率的黎曼度量”
DS老师首先跟我扯了一大堆，“比如，Hillsman在某个时期可能有相关的结果，或者是否有已知的结论说某些乘积流形不能承载正截面曲率的度量。我记得有一个结果，可能是Gromov的某个定理，或者更近期的研究，比如在正曲率流形的分类中，乘积流形通常不被允许，除非在非常特殊的情况下。” 然后大概过了半分钟DS老师终于想到了Synge定理，于是题目完结，没什么好说的。
于是我意识到问著名定理的直接推论是不行的，这种简单的逆向思维难不倒他。于是我换了个例子：“请问U(2)上是否存在正截面曲率的黎曼度量”
DS老师反应也很快，也是Synge定理+U(2) 的基本群为Z，推出不可能。
然后我又稍微变了变：“请问U(2)/O(2)上是否存在正截面曲率的黎曼度量”
这下把DS老师难住了，他想了整整150秒，给出了一个错误答案——存在。
“存在。U(2)/O(2) 上可以赋予具有正截面曲率的黎曼度量。以下是详细分析：
1. 流形结构与拓扑性质

维度与构造：U(2) 是4维紧致李群，O(2) 是其1维闭子群，商空间 M=U(2)/O(2)M=U(2)/O(2) 为3维紧致齐性流形。
基本群：由于 O(2) 在 U(2) 中的嵌入导致 π1(M)≅Z2，M不可定向。

2. 同胚于实射影空间 RP3RP3

拓扑识别：通过分析齐性作用，MM 可等价于 RP3。具体地：
- RP3RP3 是 S3 的 Z2-商，其标准度量继承自 S3 的常正曲率。
- U(2)/O(2)的对称性结构与 RP3 一致，通过群作用等价性可证二者同胚。

3. 正曲率度量的存在性

常正曲率度量：作为 S3 的商空间，RP3 具有由 S3 投射而来的常正曲率度量，满足：
- 截面曲率恒为1，全局正定。
- SU(2)/SO(2) 作用保持度量不变，推广至 U(2)/O(2) 的齐性结构。
验证不变性：U(2) 的 SU(2) 子群通过左乘作用保持度量，O(2) 作为稳定子群不破坏曲率正性。”

===============================
至于为什么不存在，分析下U(2)/O(2) 的结构，U(2)里面S^1 factor 是不能被O(2)给商掉的。把U(2)/O(2) 写成 SU(2)U(1)/SO(2)Z_2 以后就能清楚看到这一点，所以U(2)/O(2)的基本群里面还是会有一个Z子群。
DS也分析了U(2)/O(2)的基本群，在思考过程里有这么句话：“因为U(2)是连通的，且O(2)有两个连通分支，所以根据齐性空间的基本群公式，π₁(U(2)/O(2)) ≈ π₀(O(2))，即Z₂”——这个公式完全是他自己编的。如果要用同伦群的长正合列，那也应该是

但是DS自己在上一个问题里面已经知道

非平凡，所以π₁(U(2)/O(2)) ≈ π₀(O(2))这个式子毫无道理。
============================
总结一下，现在的DeepSeek有点像理解能力中等的本科生，对于基本概念的理解还是可以的，知识面当然也很广，但是稍微深入一点的推导就掉链子了。所以与其叫DeepSeek，不如叫BroadSeek。。但是我突发奇想：如果我真把他当本科生一样养着，一点一点把进阶的知识喂给他，拿各种经典定理的证明套路来训练他，会不会真能把他培养到研究生的水平。。

发表于 2025-4-18 14:16:42

这个问题在几个月前我和几位群友讨论交流过。
数学证明往往包含大量繁琐的计算和逻辑推导，AI 擅长处理这些「机械化」的部分，例如

Deepmind 利用 LLM 发现的新算法在组合数学上取得新突破，在 2023 年 12 月登上了 Nature[1]。
Lean 等自动证明助手能够验证大型数学理论体系的正确性，比如对四色问题、Feit–Thompson theorem 的形式化证明。
Kevin Buzzard 也有一个利用 Lean 对费马大定理进行形式化证明的项目，昨天刚刚贴出了一个蓝图[2]。

An invitation to formalising mathematics, Michael B. Rothgang, 2024.2.21

A Lean proof of Fermat’s Last Theorem, Kevin Buzzard, Richard Taylor, 2024.11.23

但你很难说 AI 会完全取代数学家，AI 在创造性和抽象思维方面远不如人类，我认为它在未来更适合成长为数学家的助手或者合作者。
大多数人可能狭义地认为 AI 就是最近火热的 LLMs 以及人工神经网络，但 AI 的含义并不止于此。目前我们可以粗糙地把 AI 划分为两个大的类别：

一个是符号 AI （Symbolic AI）或者说是基于逻辑的 AI （Logic-based AI），它也被称为「老式 AI」，因为它是上世纪中后期 AI 诞生以来的主导范式，
另一个是基于神经网络的 AI （Neural Network-based AI），它依赖于机器学习技术，尤其是深度学习。

具体举几个例子：

Lean, Wolfram Alpha 可以归为是符号 AI；
AlphaFold, ChatGPT, FunSearch 可以归为是基于神经网络的 AI。

前者大家都相对熟悉了，这里谈谈最近几年大火的基于神经网络的 AI，为什么这种新型 AI 不会取代人类数学家？
这个问题可以借用 Keith Devlin 的一篇文章进行回答[3]，以下是我个人渣翻：

尽管数学极其抽象，但它深根于物质世界和社会世界。数学中的基本概念并非任意发明，它们实际上是从现实世界中抽象出来的。
......
现代数学的许多抽象概念，例如群、环、域、希尔伯特空间、巴拿赫空间等等，都通过抽象的层层递进与现实世界建立联系。尽管数学看似深奥晦涩，它却始终深深扎根于现实世界。这也正是为什么数学结果能够应用于现实世界。例如，关于四维及更高维几何结构的定理可以（并且确实）用于解决现实问题，如通信网络、交通网络和高效数据存储的问题。

虽然我们数学家习惯于在抽象世界中工作，但这种习惯是通过最初（作为学生时）逐步攀登这些抽象层次来形成的。这意味着，我们对概念的理解基于现实——即使我们没有意识到这种基础的存在。（数学家们或许比其他人更清楚自己对心智活动的理解有多么有限，即使是在深入思考问题时。这种认知每当我们「突然灵光一现」获得突破性想法时，就会被迫重新认识到！）

数学是一种由深深扎根于现实、与现实有着根本性联系的生物/心灵所从事的语义活动，它们有动机、有欲望、有好奇心，并驱使自己去理解世界和他人。如下图所示，我们是在数学活动的全景图整个空间中运作。数学知识源于我们作为此类生物使用从世界中抽象出的概念和方法所从事的活动。

相比之下，大型语言模型（LLMs）的活动范围仅限于空间的上层区域，即「数学知识」。它们处理的不是意义，而是纯粹的文本（也就是符号串）。

数学活动的全景，人类能够通过理解来处理整个空间的数学问题。而大语言模型（LLMs）则仅在顶层区域工作（尽管它们可以检查一个更大的搜索空间），但却缺乏理解能力。图源 Keith Devlin

人类通过研究语义实体中的模式来推动数学进步，而 LLMs 则（隐式地）在它们处理的符号中辨别模式。这些模式反映了符号在人类产生的大量文本中的受欢迎程度（以及，越来越多地，它们自己早期和其他大语言模型的产物，这可能会成为它们和我们的主要问题），见下图。

紫色箭头表示人类在进行数学活动时所处的操作区域。而大型语言模型（LLMs）的活动范围被限制在数学文本的语法层面。图中左侧的垂直紫色箭头表示，如果我们愿意，人类数学家可以利用这些 LLMs 为我们工作。图源 Keith Devlin

......
我们是生活在现实世界中的有机生物，作为世界互动的一部分，我们的大脑进化得足以在这个世界中行动、反应和思考。而 LLMs 的输入和输出只是一串符号，仅此而已。这是两种截然不同的活动形式。

任何认为这不是一个巨大区别的人，都应该在图书馆里花些时间，沉浸在标有「人文学科」的丰富文献中。我们能够赋予 LLMs 输出意义，这反映的是我们的人类认知能力，而不是 LLMs 的能力，它们只是按照我们设计的方式工作。（就像我们制造的钟表；钟表本身并没有时间的概念，但我们设计钟表的目的就是让它的状态能够被我们解读为时间。）用「智能」或「思考」这样的词汇来描述 AI 系统是一种类别错误。LLMs 所做的事情和我们完全不同。（可以把它们想象成一个非常高级的钟表，专门设计用来报告互联网中存储的人类知识的「当前状态」。）我们应该以这种视角来看待它们。

<hr/>另外，我在这里也强烈推荐观看陶哲轩在 2024 年第 65 届 IMO 现场的演讲 AI and Mathematics，B 站也有搬运[4]，我这里把主要内容介绍一下：

陶哲轩在演讲里也明确表示了自己的观点：

AI and Mathematics, Terence Tao

就目前来看，计算机本身难以独立解决主要数学问题，距离这个目标还有很长的路要走；
AI 在未来的一段时间内大概率扮演一个辅助的角色，不仅仅局限在暴力枚举、案例验证或者计算上，计算机正逐渐被用于多种创新性方式来辅助数学家，例如 AI 生成数学猜想；
自动证明工具可以探索更大的「证明空间」，超越人类通常能够生成的少量证明。人类通常一次只能解决一个问题，如果效率够高甚至可以同时解决两三个问题。但当我们有了 AI，我们可以一次性处理 1000 个类似的问题，我们回过头来再检查 AI 给出的结果，可能其中 35% 就已经被解决了。

凭借未来强大的 AI 能力，你将真的可以开始以一种真正前所未有的规模进行数学运算，未来将会非常激动人心。

陶哲轩在演讲里还提到了非常多的例子，

利用计算机辅助数学研究，图源 Terence Tao

1. 形式化辅助证明

例如形式化辅助证明（这也是本回答最开始提到的），我们可以为一个大型证明编写一个蓝图，它把证明拆分成几百个小步骤，每个步骤都可以单独形式化，团队的不同成员可以分别处理不同的部分，最后将它们统一组合，就完成了大型证明。
如下图所示，比如某个证明必须依赖前几个陈述，而这些证明又依赖于更早的陈述，就可以绘制出一个依赖图。图中的不同圈就代表不同的陈述，绿色的圈表示这个陈述已经在形式化语言中得到了证明；蓝色的圈代表这个陈述还没有形式化，但已经准备好形式化；白色的圈代表需要有人把陈述写出来。
这种方式可以让所有人独立合作，每个人都不需要理解整个证明，只需要完成自己所负责的那部分就可以了。

依赖图，图源 Terence Tao

而使用 Lean 可以帮助更加简洁地形式化复杂的证明过程。
一些工具还可以将 Lean 的格式转换成人类可读的形式，如下图所示：

将形式化证明转化为人类可读的形式，图源 Terence Tao

2. 机器学习和纽结理论

机器学习和纽结理论，图源 Terence Tao

纽结理论里有一个核心问题是：如何判断两个结是等价的？（或者说，如何判断一个结能否通过连续变形变换成另一个结）

不同的扭结，图源 Wiki

通常我们通过扭结不变量来解决这个问题，如果两个扭结的扭结不变量不同，那么这两个扭结就不可能是等价的。
扭结不变量有多种类型，如：

Signature, Jones polynomial, HOMFLY-PT polynomial, hyperbolic invariants……

机器学习和扭结不变量，图源 Terence Tao

扭结不变量的分类也一直是个问题，不同扭结不变量之间有什么关联？就有研究者利用机器学习来解决这个问题，利用训练后的神经网络，可以根据 hyperbolic invariants 来预测 signature，大约 90% 的概率它可以预测正确。
不过机器学习实际像是一个黑箱，我们并不能知道它内部是什么原理。但一旦有了黑箱，我们就可以做一系列实验，进行显著性分析。例如通过控制输入，我们可以判断不同类型的输入是否对输出结果会有显著性的影响（比如改变某些类型的输入，它对输出结果几乎没有影响；改变其他类型的输入，它会显著地改变输出结果），数学家就可以依此提出一些关于问题的猜想。
虽然机器学习并不能直接帮助人类解决问题，但能提供很多有用的提示。
3. 大语言模型

陶哲轩询问 GPT 有哪些建议

神经网络已经存在了 20 年左右，但 LLMs 在最近五年左右出现，但直到最近它们的输出才勉强接近人类水平。例如 GPT-4 解决了 2022 年的一道 IMO 题目（陶哲轩这里吐槽这其实是精心挑选出来的，GPT-4 成功率大概只有 1%）。
LLMs 直接解决问题的可能性很低，但它可以提供一些思路。陶哲轩就提到，他遇到过一个难题并向 GPT 询问建议采用哪些技术来解决这个问题，GPT 提供了一个技术列表，其中之一就包含了陶哲轩此前忽略的方法。

发表于 2025-4-18 14:25:19

这问题下展示了 AI 证明的常见错误用法，那就是直接问 AI，然后 AI 给出一堆伪证，你爱信不信吧。
问点稍微专业些的知识，一问三不知，瞎编第一名, 特别点名 DeepSeek。
不过特仑苏·陶的用法是正确的，那就是使用证明检查器，要求 AI 生成 Lean 代码。
<hr/>陶在 AI 证明这个方向上还是非常清醒的。
全文可以看这篇 2024 年 12 月的访谈, 比较全面的展示了特仑苏·陶的观点。
Terence Tao AI Interview我在此节选一部分对话以表明特仑苏的立场。
虽然特仑苏可以使用最高级别的 GPT 模型（包括未公开的实验级模型）, 但是他对 GPT 的评价还是比较负面的。

记者：你是否尝试过使用 ChatGPT?
Tao: I played with it pretty much as soon as it came out. I posed some difficult math problems, and it gave pretty silly results. It was coherent English, it mentioned the right words, but there was very little depth. Anything really advanced, the early GPTs were not impressive at all.
They were good for fun things—like if you wanted to explain some mathematical topic as a poem or as a story for kids.
陶哲轩：它一出来我就经常用。我问了一些很难的数学问题，结果却很傻。它能用连贯的英语表达，也提到了正确的数学术语，但缺乏深度。对于任何真正前沿的东西，GPTs 都没什么有用之处。
它们只适合用来做一些有趣的事情——比如你想用诗歌或故事的形式给孩子们解释某个数学话题。

然后记者问你知道 o1 吗, 这是个推理模型, 应该会改善许多吧?
然后特仑苏给出了更加负面的评价:

Tao: You have a project and ask, “What if I try this approach?” And instead of spending hours and hours actually trying to make it work, you guide a GPT to do it for you.
With o1, you can kind of do this. I gave it a problem I knew how to solve, and I tried to guide the model. First I gave it a hint, and it ignored the hint and did something else, which didn’t work. When I explained this, it apologized and said, “Okay, I’ll do it your way.” And then it carried out my instructions reasonably well, and then it got stuck again, and I had to correct it again. The model never figured out the most clever steps. It could do all the routine things, but it was very unimaginative.
陶哲轩：你有一个命题，然后问：“如果我尝试这种方法会怎么样？” 你无需花费大量时间去实际尝试让它发挥作用，而是引导GPT为你完成。使用 o1，你的确可以做到这一点。
我给它一个我知道如何解决的问题，然后尝试引导模型。我给 o1 一个提示，但它忽略了提示，用了其他证明尝试，提示并没有奏效。
当我解释这一点时，它道歉说：“好的，我会按照你的方式做。” 然后它相当好地执行了我的指令，然后它又卡住了，我不得不再次纠正它。
这个模型从来都找不到最巧妙的步骤。它可以做所有常规的事情，但它非常缺乏想象力。
研究生和人工智能之间的一个关键区别在于，研究生会学习。
你告诉人工智能它的方法行不通，它会道歉，也许会暂时纠正路线，但有时它会突然回到之前尝试过的方法。
而如果你和人工智能开始一个新的会话，你又会回到原点。

基本上就是无用功，你都懂还好，很累但也不是不能用；如果你半懂不懂的话就只能被耍了。
<hr/>接下来记者很疑惑, 那你吹 AI 证明干什么?

记者: 可是您之前也说过，计算机可能会改变数学，使人类更容易相互合作。这是怎么回事？生成式人工智能在这方面到底有什么贡献？
Tao: Technically they aren’t classified as AI, but proof assistants are useful computer tools that check whether a mathematical argument is correct or not. They enable large-scale collaboration in mathematics. That’s a very recent advent.
Math can be very fragile: If one step in a proof is wrong, the whole argument can collapse. If you make a collaborative project with 100 people, you break your proof in 100 pieces and everybody contributes one. But if they don’t coordinate with one another, the pieces might not fit properly. Because of this, it’s very rare to see more than five people on a single project.
陶哲轩：严格来说，它们不算是人工智能，证明助手是检验数学论证正确与否的实用计算机工具。它们能够实现大规模的数学协作。这才刚刚出现。
传统数学研究非常脆弱：如果证明中一步出错，整个论证就可能崩溃。
如果你与100人合作开展一个项目，你可以把你的证明分成100个部分，每个人贡献一个。但只要有一个人不协调(伪证)，所有人的努力都会白费。正因为如此，很少看到超过5个人参与一个项目。
有了证明助手，你无需信任你的同事，因为类型会给你100%的保证。这样你就可以进行大规模工业化的数学证明，而这在目前还不存在。一个人只需专注于证明某些特定类型的结果，这就好比现代供应链，分工合作完成工作。

特仑苏·陶作为最前沿的数学家, 很清楚现在数学的困境, 数学证明的复杂性正在逼近个人的极限.
但是数学证明又没法分工合作, 你没法信任你的合作者, 只要有一个人伪证, 剩下的人全部都在做无用功.
数学唯一的出路就是程序化, 程序员从来不管自己用的库是否正确, 类型检查会搞定一切.
(这点待定, 可能特仑苏眼里写点什么 js, py 压根不算程序员, 只能算脚本小子)
<hr/>最后特仑苏·陶给出了 AI 在数学上正确的用法:

Tao: The problem is these programs are very fussy. You have to write your argument in a specialized language—you can’t just write it in English. AI may be able to do some translation from human language to the programs. Translating one language to another is almost exactly what large language models are designed to do. The dream is that you just have a conversation with a chatbot explaining your proof, and the chatbot would convert it into a proof-system language as you go.
陶哲轩：唯一的问题是这些程序非常挑剔。你必须用一种专门的语言(Lean)来写你的论证——你不能只用英语。人工智能能够将人类语言翻译成程序语言，将一种语言翻译成另一种语言几乎正是大型语言模型的设计初衷。
理想情况下，你只需与聊天机器人对话，解释你的证明，聊天机器人就会将其转换成证明系统语言(Lean)。

所以陶哲轩的确是非常聪明的一个人, 他没有去和 AI 生成的各种似是而非的伪证 Battle。
唯一正确的道路就是让 AI 把想法翻译成 Lean 语言, 定理检查器会告诉你是不是伪证.
<hr/>我个人对此更加悲观, 在不久的未来, 越来越多的 AI 伪证会直接摧毁整个学术界的信任。
一开始只有毕业论文用 AI 废物应付, 但是不久各类水刊也会沦陷, 最后顶会顶刊也会充斥撤稿丑闻, 所有自然语言的学术体系全面崩溃。
没有人会有空去仔细辨别你的论文是不是伪证, 物理学家先跑你的 Mathematica, 数学家直接跑你的 Lean, 跑过了再 review, 最后再进行同行评议之类传统的学术交流。
在学术界崩溃后，理工学科会在编译器上重建，但是文科的命运会怎么样我就不知道了。

如何看待陶哲轩等数学家大力推动的 AI 数学证明?

本周热门