这问题下展示了 AI 证明的常见错误用法,那就是直接问 AI,然后 AI 给出一堆伪证,你爱信不信吧。
问点稍微专业些的知识,一问三不知,瞎编第一名, 特别点名 DeepSeek。
不过特仑苏·陶的用法是正确的,那就是使用证明检查器,要求 AI 生成 Lean 代码。
<hr/>陶在 AI 证明这个方向上还是非常清醒的。
全文可以看这篇 2024 年 12 月的访谈, 比较全面的展示了特仑苏·陶的观点。
Terence Tao AI Interview我在此节选一部分对话以表明特仑苏的立场。
虽然特仑苏可以使用最高级别的 GPT 模型(包括未公开的实验级模型), 但是他对 GPT 的评价还是比较负面的。记者:你是否尝试过使用 ChatGPT?
Tao: I played with it pretty much as soon as it came out. I posed some difficult math problems, and it gave pretty silly results. It was coherent English, it mentioned the right words, but there was very little depth. Anything really advanced, the early GPTs were not impressive at all.
They were good for fun things—like if you wanted to explain some mathematical topic as a poem or as a story for kids.
陶哲轩:它一出来我就经常用。我问了一些很难的数学问题,结果却很傻。它能用连贯的英语表达,也提到了正确的数学术语,但缺乏深度。对于任何真正前沿的东西,GPTs 都没什么有用之处。
它们只适合用来做一些有趣的事情——比如你想用诗歌或故事的形式给孩子们解释某个数学话题。 然后记者问你知道 o1 吗, 这是个推理模型, 应该会改善许多吧?
然后特仑苏给出了更加负面的评价:Tao: You have a project and ask, “What if I try this approach?” And instead of spending hours and hours actually trying to make it work, you guide a GPT to do it for you.
With o1, you can kind of do this. I gave it a problem I knew how to solve, and I tried to guide the model. First I gave it a hint, and it ignored the hint and did something else, which didn’t work. When I explained this, it apologized and said, “Okay, I’ll do it your way.” And then it carried out my instructions reasonably well, and then it got stuck again, and I had to correct it again. The model never figured out the most clever steps. It could do all the routine things, but it was very unimaginative.
陶哲轩:你有一个命题,然后问:“如果我尝试这种方法会怎么样?” 你无需花费大量时间去实际尝试让它发挥作用,而是引导GPT为你完成。使用 o1,你的确可以做到这一点。
我给它一个我知道如何解决的问题,然后尝试引导模型。我给 o1 一个提示,但它忽略了提示,用了其他证明尝试,提示并没有奏效。
当我解释这一点时,它道歉说:“好的,我会按照你的方式做。” 然后它相当好地执行了我的指令,然后它又卡住了,我不得不再次纠正它。
这个模型从来都找不到最巧妙的步骤。它可以做所有常规的事情,但它非常缺乏想象力。
研究生和人工智能之间的一个关键区别在于,研究生会学习。
你告诉人工智能它的方法行不通,它会道歉,也许会暂时纠正路线,但有时它会突然回到之前尝试过的方法。
而如果你和人工智能开始一个新的会话,你又会回到原点。 基本上就是无用功,你都懂还好,很累但也不是不能用;如果你半懂不懂的话就只能被耍了。
<hr/>接下来记者很疑惑, 那你吹 AI 证明干什么?记者: 可是您之前也说过,计算机可能会改变数学,使人类更容易相互合作。这是怎么回事?生成式人工智能在这方面到底有什么贡献?
Tao: Technically they aren’t classified as AI, but proof assistants are useful computer tools that check whether a mathematical argument is correct or not. They enable large-scale collaboration in mathematics. That’s a very recent advent.
Math can be very fragile: If one step in a proof is wrong, the whole argument can collapse. If you make a collaborative project with 100 people, you break your proof in 100 pieces and everybody contributes one. But if they don’t coordinate with one another, the pieces might not fit properly. Because of this, it’s very rare to see more than five people on a single project.
陶哲轩:严格来说,它们不算是人工智能,证明助手是检验数学论证正确与否的实用计算机工具。它们能够实现大规模的数学协作。这才刚刚出现。
传统数学研究非常脆弱:如果证明中一步出错,整个论证就可能崩溃。
如果你与100人合作开展一个项目,你可以把你的证明分成100个部分,每个人贡献一个。但只要有一个人不协调(伪证),所有人的努力都会白费。正因为如此,很少看到超过5个人参与一个项目。
有了证明助手,你无需信任你的同事,因为类型会给你100%的保证。这样你就可以进行大规模工业化的数学证明,而这在目前还不存在。一个人只需专注于证明某些特定类型的结果,这就好比现代供应链,分工合作完成工作。 特仑苏·陶作为最前沿的数学家, 很清楚现在数学的困境, 数学证明的复杂性正在逼近个人的极限.
但是数学证明又没法分工合作, 你没法信任你的合作者, 只要有一个人伪证, 剩下的人全部都在做无用功.
数学唯一的出路就是程序化, 程序员从来不管自己用的库是否正确, 类型检查会搞定一切.
(这点待定, 可能特仑苏眼里写点什么 js, py 压根不算程序员, 只能算脚本小子)
<hr/>最后特仑苏·陶给出了 AI 在数学上正确的用法:Tao: The problem is these programs are very fussy. You have to write your argument in a specialized language—you can’t just write it in English. AI may be able to do some translation from human language to the programs. Translating one language to another is almost exactly what large language models are designed to do. The dream is that you just have a conversation with a chatbot explaining your proof, and the chatbot would convert it into a proof-system language as you go.
陶哲轩:唯一的问题是这些程序非常挑剔。你必须用一种专门的语言(Lean)来写你的论证——你不能只用英语。人工智能能够将人类语言翻译成程序语言,将一种语言翻译成另一种语言几乎正是大型语言模型的设计初衷。
理想情况下,你只需与聊天机器人对话,解释你的证明,聊天机器人就会将其转换成证明系统语言(Lean)。 所以陶哲轩的确是非常聪明的一个人, 他没有去和 AI 生成的各种似是而非的伪证 Battle。
唯一正确的道路就是让 AI 把想法翻译成 Lean 语言, 定理检查器会告诉你是不是伪证.
<hr/>我个人对此更加悲观, 在不久的未来, 越来越多的 AI 伪证会直接摧毁整个学术界的信任。
一开始只有毕业论文用 AI 废物应付, 但是不久各类水刊也会沦陷, 最后顶会顶刊也会充斥撤稿丑闻, 所有自然语言的学术体系全面崩溃。
没有人会有空去仔细辨别你的论文是不是伪证, 物理学家先跑你的 Mathematica, 数学家直接跑你的 Lean, 跑过了再 review, 最后再进行同行评议之类传统的学术交流。
在学术界崩溃后,理工学科会在编译器上重建,但是文科的命运会怎么样我就不知道了。 |
|