本文来自微信公众号“学术头条”。
【编者按】日前,菲尔兹奖得主、数学家陶哲轩与知名播客主持人Dwarkesh Patel展开了一场横跨科学史与人工智能前沿的深度对话,以开普勒发现行星运动定律为引,重新审视了AI时代科学发现的本质与边界。
陶哲轩从科学史的长河出发,得出了一个清醒的判断:AI与人类的关系,不是替代,而是互补。AI已将创意生成的成本压至近乎为零,但验证、判断与叙事说服,依然是不可被自动化的人类核心能力。(全篇内容较长,建议收藏)
核心观点如下:
- 人工智能在广度上出类拔萃,人类在深度上出类拔萃。两者非常互补。
- 我们可以先让这些广度适中但能力不错的AI去绘制地图、做出所有容易的观察,然后识别出若干困难的孤岛,让人类专家再来攻克。
- 纯Al解法越来越少了,迄今为止再没有出现任何纯AI驱动的解法。
- “人工聪明”与“人工智能”之间,差距在于积累性进展。
- AI已经将创意生成的成本压到几乎为零,但这意味着科学的其他环节必须跟上:验证、确认,以及评估哪些想法真正推动领域发展、哪些是死路或假象。这些工作,我们还不知道如何大规模地完成。
- AI解决了一些辅助性任务,比如做更深入的文献检索,或者提供更多的数值结果。我所做的核心工作,真正解决一道数学难题中最困难的部分,其实并没有改变太多,我还是用纸和笔来做。
学术头条在不改变原文大意的情况下,做了简单的编译。对话内容如下:

开普勒是一个“狂热、高随机性”的LLM
Dwarkesh Patel
今天,我与陶哲轩对谈,他无需多加介绍。陶哲轩,我想请你先讲一讲开普勒发现行星运动定律的故事,因为我认为这将是讨论人工智能(AI)与数学的绝佳切入点。
陶哲轩
我一直对天文学抱有业余兴趣,也很喜欢早期天文学家探索宇宙本质的故事。开普勒是在哥白尼的工作基础上发展的,而哥白尼本人又是在阿里斯塔克斯的工作基础上发展的。哥白尼提出了著名的日心说:不是行星和太阳绕地球运转,而是太阳位于太阳系中心,其他行星围绕太阳运转。
哥白尼认为行星的轨道是完美的圆形。他的理论与希腊人、阿拉伯人和印度人几个世纪以来的观测结果相吻合。开普勒在求学期间了解到这些理论,并发现哥白尼所预测的各轨道大小之间的比例似乎具有某种几何意义。
他开始提出:如果你取地球的轨道,将其包围在一个正方体中,那么包围这个正方体的外球体几乎完全吻合火星的轨道,以此类推。当时已知六颗行星,它们之间有五个间隔,而恰好有五个完美的柏拉图立体:正方体、正四面体、正二十面体、正八面体和正十二面体。
因此他提出了一个他认为极其美妙的理论:可以将这些柏拉图立体内接在各行星的球面之间。这个理论似乎能吻合观测,他也认为上帝设计行星的方式正好与柏拉图立体的数学完美性相呼应。
他需要数据来验证这一理论。当时存在的唯一一份高质量数据集,来自第谷·布拉赫,这位极其富有、性格古怪的丹麦天文学家,他说服了丹麦政府资助一座造价极其昂贵的天文台。实际上那是一整座岛屿,他在那里用肉眼对所有行星(如火星、木星)进行了数十年的观测,只要天气晴朗,每晚都会记录。他是最后一位裸眼天文学家。
他积累了大量数据,开普勒可以用来验证自己的理论。开普勒开始与第谷合作,但第谷对数据非常嫉妒,每次只肯透露一点点。开普勒最终直接窃取了数据,并不得不与第谷的后人对簿公堂。
他最终得到了数据,但令他失望的是,他那个美丽的理论并不完全成立。数据与他的柏拉图立体理论相差约10%。他尝试了各种修补方法,移动圆的位置,但始终无法完全吻合。他在这个问题上耕耘了数年,最终找到了如何利用数据推算出行星真实轨道的方法。
那是一项极其聪明、天才式的数据分析工作。然后他发现行星轨道实际上是椭圆形,而非圆形,这令他大为震惊。由此他总结出了行星运动的两条定律:椭圆轨道定律,以及等面积定律(行星在等时间内扫过等面积)。
又过了十年,在收集了大量数据之后,土星、木星等外行星最难处理。他终于推导出第三定律:行星公转周期与其到太阳距离的某次幂成正比。这就是著名的开普勒三大定律。他对此无法解释,完全由实验驱动,直到一个世纪后牛顿才给出了能同时解释三条定律的理论。
Dwarkesh Patel
我想提一个观点请你评判:开普勒就像一个“输出高度随机”(注:原文为“high-temperature”,意为模型输出更“狂热”和随机)的大语言模型(LLM)。牛顿给出了三大定律为何成立的解释。开普勒发现行星运动定律、推算各行星相对轨道的过程,如你所说,确实是天才之作。但纵观他的职业生涯,他不过是在不断尝试各种随机关系。
事实上,他写下第三定律的那本书,是《世界的和谐》中的一个旁注,那本书讲的是各行星如何具有不同的“和声”,地球上为何有那么多饥荒与苦难,是因为地球的音符是“mi-fa-mi”,全是类似占星术的随机内容,但其中夹杂着立方-平方定律,告诉你行星周期与到太阳距离之间的关系。如你所述,将这条定律与牛顿的F=ma和向心加速度公式结合,就能推导出平方反比定律,牛顿正是这样做的。
我认为这个故事很有趣,是因为我觉得大语言模型可以做类似的事,只要有第谷那样可供验证的数据库,就可以花二十年时间尝试各种随机关系,其中有些毫无意义。“好,我来试试音符、柏拉图立体或不同几何图形……我预感这些轨道的几何形状有什么重要意义。”只要其中一件事奏效,只要能够验证,这些经验规律就可以推动真正深刻的科学进步。
陶哲轩
传统上,当我们谈及科学史时,创意生成一直是科学中最受推崇的部分。一个科学问题包含许多步骤:你需要确定问题,找到一个富有成效的好问题,然后收集数据,制定数据分析策略,提出假设。在这一步,你需要提出一个好的假设,然后进行验证,最后撰写成文、加以阐释。整个过程有十几个不同的环节。
我们所推崇的,是那些灵光乍现的天才瞬间。开普勒当然经历了许多尝试,其中不少以失败告终。我敢说,还有很多他甚至没有发表,因为根本对不上数据。这是过程中重要的一部分,尝试各种随机方法,看看哪些行得通。
但正如你所说,这必须与等量的验证相配合,否则就只是胡言乱语。我们颂扬开普勒,但也应该颂扬布拉赫,他孜孜不倦地收集数据,精度比以往任何观测高出十倍。那多出来的一位小数点对开普勒得出正确结论至关重要。他当时运用了欧几里得几何和所能掌握的最先进数学,来让模型与数据相吻合。数据、理论和假设生成,各个方面缺一不可。
我不确定如今假设生成还是不是瓶颈所在。科学在过去一个世纪里已经发生了变化。经典上,科学有两大范式:理论与实验。20世纪出现了数值模拟,可以用计算机模拟来检验理论。20世纪末,我们又进入了大数据时代。
如今,许多新进展实际上是先分析海量数据集驱动的:先收集大型数据集,再从中提取规律、推导出思路。这与科学过去的运作方式有些不同:过去是先做少量观察,或突然产生某个灵感,然后收集数据来检验。这是经典的科学方法。现在几乎反过来了,先收集大数据,再从中提取假设。
开普勒也许是最早的数据科学家之一,但即便是他,也并非从第谷的数据集出发再加以分析,而是先有了一些预设理论。这样的方式似乎越来越不是我们取得进展的方式,因为数据变得太庞大、太有用了。
Dwarkesh Patel
有意思。我觉得你描述的20世纪科学方式,其实很好地描述了开普勒的情况。他确实有那些想法,1595、1596年,他提出了多边形理论,然后是柏拉图立体理论。但它们是错的。几年后他得到了布拉赫的数据,直到又经过二十年不断尝试各种随机关系,才发现了这条经验规律。
这感觉有点像是:布拉赫的数据类比于现在某个庞大的模拟数据库,有了数据你才能持续尝试随机方法。如果没有那个,开普勒不过是在写关于和声和柏拉图立体的书,没有任何东西可以用来真正验证。
陶哲轩
数据极其重要。我想区分的是:传统上,你先提出假设,再用数据来检验它。但现在通过机器学习、数据分析和统计学,你可以从数据出发,通过统计手段推导出以前不存在的规律。
开普勒第三定律有点像这个过程,只不过开普勒没有拥有第谷的一千个数据点,而是只有六个,对每颗行星,他知道轨道长度和到太阳的距离,一共五六个数据点。他做的事,我们现在称之为回归分析:用这六个点拟合一条曲线,得到了立方-平方定律,这非常了不起。但他能从六个数据点得出正确结论,其实有一定的运气成分,那根本不足以得出真正可靠的结论。
后来有一位天文学家约翰·波德,用同样的数据,行星到太阳的距离。受开普勒启发,预测行星距离构成一个等比数列(加上一个偏移量)。他也拟合了一条曲线,但有一个数据点缺失,即火星与木星之间有一个巨大的空缺。他的公式预测那里应该有一颗缺失的行星。这本来像是一个无稽之谈,直到赫歇尔发现天王星,其距离完全符合这个规律;谷神星在小行星带被发现,也符合。人们为此非常兴奋,以为波德发现了一条新的自然定律。
但后来海王星被发现了,却与规律严重不符。这基本上只是数字上的巧合。开普勒没有特别强调第三定律(相比前两条),也许直觉上,即使他没有现代统计学,他也隐约知道:六个数据点,结论只能是暂时性的。
如何在海量AI垃圾中发现新的统一概念?
Dwarkesh Patel
把这个类比更明确地问出来:如果未来我们拥有越来越聪明的AI,数以百万计地运转,可以去搜寻所有这些经验规律,就像行星运动第三定律那样,你认为科学的瓶颈不在于发现更多这类规律,以便日后有人说“我们需要一种方式来解释这个,让我们推导出引力的平方反比定律”,对吗?
陶哲轩
我认为AI已经将创意生成的成本压到几乎为零,就像互联网将通信成本压到几乎为零一样。这是一件了不起的事,但它本身并不能直接创造出(真正的)繁荣与富足。现在的瓶颈变了。我们现在面临的局面是:人们突然可以为一个科学问题生成成千上万种理论。现在我们必须去验证和评估它们。这需要我们改变科学的运作结构才能应对。
传统上,我们依靠“门槛”来筛选。在AI Slop(垃圾)出现之前,业余科学家就已经提出了许多自己的宇宙理论,其中大多数价值甚微。我们建立了同行评审的发表体系,试图过滤并识别出高价值的想法加以检验。
但现在我们能以巨大规模生成各种可能的解释,其中有些很好、很多很糟,人类审稿人已经应接不暇。许多期刊报告说,AI生成的投稿正在铺天盖地涌入。
我们现在能够借助AI生成各种东西,这很好,但这意味着科学的其他环节必须跟上:验证、确认,以及评估哪些想法真正推动领域发展、哪些是死路或假象。这些工作,我们还不知道如何大规模地完成。对于每篇单独的论文,科学家们可以辩论,在几年内达成共识。但如果每天生成一千篇,这套方式就行不通了。
Dwarkesh Patel
这里有一个极其有趣的问题。如果你有数十亿个AI科学家,不仅仅是如何衡量哪些是真正的进展,还有……这其实是人类科学曾经面对过并以某种方式解决了的问题,我甚至不确定我们是怎么解决的。
假设在1940年代,你在贝尔实验室,各种新技术不断涌现:脉冲编码调制、如何传输信号、如何数字化信号、如何通过模拟线路传输信号,关于工程约束和技术细节的论文铺天盖地,而其中有一篇提出了“比特”的概念,它对许多不同领域都有影响。你需要某种系统,能从中发现这个概念,并说:“好,我们需要把这个应用到概率论、计算机科学……”等等。
未来,AI提出了下一个这样的统一概念。在数百万篇可能代表进步的论文中,你如何识别出那个具有高度统一性的重大思想?
陶哲轩
很大程度上要靠时间的检验。许多伟大的想法在最初提出时并未获得很好的反响,直到后来其他科学家意识到可以将其进一步发展、应用到自己的领域,才得到重视。深度学习本身在很长一段时间里都只是AI的一个小众领域。“完全通过数据训练来获得答案、而非依靠第一性原理推理”的想法曾经非常有争议,只是花了很长时间才开始结出成果。
你提到“比特”。其实除了如今通用的0-1二进制,计算机架构还有其他提案。我记得有“三进制”,即三值逻辑。在另一个平行宇宙里,也许会有不同的范式占据主导。Transformer是所有现代大语言模型的基础,它是第一个真正足够复杂到能够处理语言的深度学习架构。但事情也可以不是这样,也许某种其他架构会率先做到,一旦被采用,就会成为标准。
评估某个给定想法是否会结出硕果之所以困难,在于这取决于未来,也取决于文化和社会:哪些被采纳,哪些没有。但话说回来,十进制本身并没有什么特别之处。它之所以对我们有用,只是因为大家都这么用。我们已经将其标准化了。我们所有的计算机和数字表示系统都是围绕它构建的,所以现在我们只能沿用它了。偶尔有人推动换用其他进制,但惯性太大,根本无法撼动。
你无法将任何一项科学成就孤立来看并给出客观评分,而不考虑其历史和未来的背景。因此,这可能永远无法像那些更局部性的问题一样,通过强化学习来实现。
Dwarkesh Patel
纵观科学史,每当一个新理论出现,事后我们发现它是正确的,它在当时提出的推论,要么毫无意义(后来我们才明白为什么),要么是正确的但在当时看起来极不可能。
正如你所说,阿里斯塔克斯在公元前三世纪就提出了日心说。古雅典人反驳道:“这不可能,如果地球绕太阳转,我们应该看到恒星的相对位置随地球公转而变化,唯一的解释是恒星距离极远,以至于我们察觉不到任何视差”,这其实是正确的推论。
有时推论是错误的,我们只是需要上升到更高层次的理解。莱布尼茨曾批评牛顿,反对他的引力理论,因为它意味着超距作用,却不知道其机制;牛顿本人也对惯性质量和引力质量相同这一事实感到困惑。这些问题后来都由爱因斯坦解决了。但这仍然是进步。
那么,对于AI同行评审体系来说,问题是:即便你可以证伪一个理论,你如何意识到它相对于之前的理论仍然构成了进步?
陶哲轩
往往,最终正确的理论在最初许多方面反而更差。哥白尼的行星理论比托勒密的理论精度更低。地心说在那时已经发展了一千年,经过了无数次修补和越来越复杂的临时补丁,变得越来越精确。哥白尼的理论则简单得多,但精度更差。直到开普勒出现,日心说才在精度上超过了托勒密的理论。
科学永远是一项未竟的事业。当你只得到了部分答案,它看起来往往比那些虽然错误但已被完善到几乎能回答所有问题的理论更差。如你所说,牛顿的理论留下了巨大的谜题:质量的等价性和超距作用,直到几个世纪后通过截然不同的概念方式才得以解决。
进步往往不是靠增加更多理论,而是靠删除头脑中某些预设。地心说能够长期维持,一个重要原因是我们有一种观念:物体天然趋于静止(这是亚里士多德的物理学观念),所以地球运动这个想法……如果地球在运动,我们怎么没有摔倒?有了牛顿运动定律,运动中的物体保持运动等等,这才说得通了。
从概念上接受“地球在运动”是一个巨大的飞跃,因为我们感觉不到它在运动。最重大的科学进步,比如达尔文的进化论,核心在于物种并非静止不变,这并不显而易见,因为我们在一生中看不到进化的发生。(当然,现在我们其实已经能观察到了。)进化看起来是永恒不变的。
我们现在正在经历一场认知上的“哥白尼革命”,我们曾经认为人类智慧是宇宙的中心,而现在我们看到,世界上存在截然不同类型的智慧,各有其优势与局限。我们对哪些任务需要智慧、哪些不需要的判断,必须进行大幅重新排序。
试图将AI纳入我们关于科学进步的理论框架,判断什么难、什么容易,我们正在苦苦挣扎。我们不得不提出一些从未真正需要提出的问题,也许哲学家们思考过,但现在我们所有人都必须面对。
Dwarkesh Patel
这引出了一个我一直很好奇的话题。你提到了达尔文的进化论。有一本书叫《发条宇宙》(The Clockwork Universe),作者是爱德华·多尔尼克,涵盖了我们正在讨论的这段历史。他在书中有一个有趣的观察:《物种起源》出版于1859年,《自然哲学的数学原理》出版于1687年。
《物种起源》比《原理》晚了整整两个世纪。从概念上看,达尔文的理论似乎更简单。达尔文的同时代生物学家托马斯·赫胥黎读完《物种起源》后说:“怎么这么蠢,居然没早点想到这个。”
没有人对《原理》说过类似的话,没有人懊悔自己没能抢先于牛顿发现引力。那么问题是,为什么进化论花了更长时间?
这似乎在很大程度上是因为你所说的:自然选择的证据在某种意义上是压倒性的,但它是累积性的、回顾性的;而牛顿只需说“这是我的方程式,给我月球的公转周期和距离,如果能对上,我们就取得了进展”。
卢克莱修在公元前一世纪就有过“物种适应环境”的想法,但直到达尔文之前几乎无人提及,因为卢克莱修无法做实验来迫使人们重视它。我想知道,回望历史,我们是否会看到:那些拥有紧密数据闭环、可以便捷验证的领域,即便在概念上更为困难,取得的进展会多得多。
陶哲轩
我认为科学的一个面向是,它不仅是创立一个新理论并加以验证,还必须向他人传达。达尔文是一位了不起的科学传播者。他用英语写作,用的是自然语言。我现在说话……
Dwarkesh Patel
没有Lean。
陶哲轩
我得从技术思维中跳出来。他用平实的英语写作,不用方程式,而是综合了大量零散的事实。进化论的部分内容此前已有人研究过,但他提出了一个极具说服力的愿景。当然,他仍有遗漏之处,他不知道遗传机制,没有DNA的概念。但他的写作风格极具说服力,这帮了大忙。
牛顿用拉丁语写作,他发明了全新的数学领域来解释自己的研究,而且他处于一个科学家之间竞争更为激烈、远比如今保密的时代。学术界至今仍有竞争,但在牛顿那个年代更为严酷。他压住了一些最精华的洞见,不想让竞争对手占到任何便宜。据我所知,他本人也不是一个讨人喜欢的人。直到牛顿去世几十年后,其他科学家用更简明的方式阐释了他的工作,它才得到广泛传播。
阐释的艺术、论证的能力、构建叙事的能力,也是科学非常重要的组成部分。即便你有数据,也需要说服别人,否则他们不会深入推进,也不会愿意先期投入学习你的理论、真正去探索它。这是另一件很难用强化学习来实现的事。你怎么给“说服力”打分?好吧,整个营销部门都在试图做这件事。也许AI还未经过优化以具备说服力,这未尝不是好事。
科学有其社会性。尽管我们以客观性为傲,有数据、实验和验证,我们仍然需要讲故事、说服同行。这是柔软的、感性的东西,是数据与叙事的结合,是一种关于"空白"的叙事。
即使是达尔文,如我所说,他也有无法解释的部分。但他仍然能够论证:未来人们会找到过渡化石,会找到遗传机制,而他们确实做到了。我不知道如何以如此精确的方式量化这一点,以至于能够开始做强化学习。也许,这将永远是科学中属于人类的那一面。
演绎潜力空间
Dwarkesh Patel
我从观看你关于宇宙距离阶梯的内容中得到的一个感悟是,许多领域中的“演绎潜力空间”(deductive overhang)可能比人们意识到的要大得多。如果你对如何研究一个问题有了正确的洞见,你可能会惊讶于自己能从世界中学到多少更多的东西。
我想知道,你认为这是你所研究的那些特定历史时期天文学所特有的现象,还是说,仅凭目前到达地球的数据,我们实际上可以推导出远比我们已知的更多的东西?
陶哲轩
天文学是最早真正拥抱数据分析、尽可能从已有信息中榨取每一滴价值的学科之一,因为数据一直是瓶颈,至今依然如此。收集天文数据极其困难。
天文学家在从微弱的数据痕迹中提取各种结论方面堪称世界级水准,几乎像福尔摩斯一样。我听说很多量化对冲基金实际上最青睐招募天文学博士。他们也出于其他原因,对从各种随机数据中提取信号非常感兴趣。
我们对如何从各种信号中挖掘额外信息确实探索不足。随便举个例子,我记得曾读到过一项研究,研究人员试图测量科学家实际阅读其引用文献的频率。你要怎么测量这个呢?你可以去调查不同科学家,但他们想出了一个聪明的办法。
许多引用文献中有小错误,比如数字错了,或标点符号差一点。他们统计一个错误从一篇引用传到下一篇引用的频率,从而推断作者是否只是在复制粘贴参考文献而根本没有核实。由此,他们得以推断出人们究竟花了多少注意力。所以存在一些聪明的办法来提取……
你之前提出的那些问题:我们如何判断一项科学进展是否富有成效、是否有趣、是否代表真正的进步,数据中也许存在非常有用的指标或痕迹。我们可以考察引用情况,看某件事在会议上被提及的频率。也许科学社会学方面还有大量研究值得去做,这些研究实际上能够探测到这些现象。也许我们应该真的把一些天文学家请来处理这个问题。
已知AI发现中的选择性偏差
Dwarkesh Patel
这很好地引出了一个话题:从外部看,AI在数学领域似乎正在取得进展。你最近发了一篇文章,指出过去几个月里AI程序已经解决了埃尔德什问题中的五十个(共约一千一百个)。我不知道现在是否还准确,但一个月前你说已经出现了一段停滞期,因为“低悬的果实”已经被摘完了。
首先,我想知道现在是否依然如此,我们已经摘完了低悬的果实,目前正处于平台期?
陶哲轩
看起来确实是这样。借助AI协助解决了大约五十个问题,这很了不起,但还剩大约六百个。人们现在还在一点一点地啃其中的一两个。
我们看到纯AI解法越来越少了,就是AI一击即中地解决问题的那种。有一个月里曾经发生过这种情况,但现在已经停了,并不是因为没有人尝试。我知道有三个独立的尝试,想让前沿AI同时解决每一个问题,结果它们只是发现了一些小观察,或者发现某个问题在文献中已经被解决了,但迄今为止再没有出现任何纯AI驱动的解法。
现在人们大量使用AI,但方式不同了。有人可能用AI生成一个可能的证明策略,然后另一个人用另一个AI工具来批评它、重写它、生成一些数值数据,或者做文献综述。有些问题是通过许多人与许多AI工具之间持续的对话解决的。但这似乎仍然是一次性的事件。
也许这些问题有一个类比:你置身于某个山脉中,到处都是悬崖峭壁。也许有一堵三英尺高的小墙,有一堵六英尺高的,有一堵十五英尺高的,然后还有高达一英里的峭壁。你试图攀爬尽可能多的这些峭壁,但周围一片黑暗,你不知道哪些高,哪些矮。于是你点一些蜡烛、绘制一些地图,慢慢摸清哪些是可以攀爬的,哪些在墙壁上有可以先抵达的局部路径。
这些AI工具就像能跳两米高的弹跳机器,比任何人类跳得都高。有时它们跳错方向,有时直接摔下来,但有时确实能够到达以前我们够不到的最矮的那堵墙。我们就这样把它们放到这片山脉里,让它们四处跳跃。曾经有过一段令人兴奋的时期,它们能找到所有低矮的墙并攀上去。也许下一次模型有了重大进步,它们会再次尝试,再多突破几堵墙。
但这是一种不同的数学研究方式。通常我们会一步一步地往上爬,留下标记,尝试识别出局部的东西。而这些工具要么成功,要么失败。它们在创造局部进展、或识别出应该优先关注的中间阶段方面表现非常糟糕。回到之前的讨论,我们没有办法像评估一次性成功或失败那样去评估局部进展。
Dwarkesh Patel
看待你刚才说的话,有两种不同的方式。一种对AI进展更悲观,一种更乐观。悲观的看法是:“哦,它们只能到达某个高度的墙,达不到人类所到的高度。”
第二种看法是,它们有一种强大的特性:一旦达到某个水线,就能填满该水线内的每一个问题,而这是我们用人类根本做不到的。我们无法复制一百万个你,给每个人一百万美元的推理算力,让你同时在一百万个不同问题上花费一百年的主观研究时间。
但一旦AI达到“陶哲轩级别”,就可以做到这一点。一旦达到中等水平,就可以做中等版本的这件事。我们现在应该感到悲观的理由,正是我们应该格外乐观的理由,不是等到它们达到超人智慧,而是仅仅当它们达到人类水平的时候,因为它们的人类水平智慧在广度和能力上与我们的人类水平智慧有质的不同。
陶哲轩
我同意。它们在广度上出类拔萃,而人类,至少是人类专家,在深度上出类拔萃。我认为两者非常互补。但我们目前做数学和科学的方式是以深度为中心的,因为那是人类专长所在,因为人类无法做到广度。我们需要重新设计做科学的方式,以充分利用我们现在拥有的这种广度能力。
我们应该在创造非常广泛的问题类别上投入更多精力,而不是只研究一两个非常深刻的重要问题。当然,深刻的重要问题仍然应该存在,人类也应该继续研究它们。但现在我们有了另一种做科学的方式:我们可以先让这些广度适中但能力不错的AI去绘制地图、做出所有容易的观察,然后识别出若干困难的孤岛,让人类专家再来攻克。
我非常清晰地看到一个高度互补的科学未来。最终,你会希望同时拥有广度和深度,以某种方式获得两者的最佳结合。但我们需要在广度这一侧积累经验,这太新了。我们甚至还没有充分利用它的范式,但我们会有的。届时,科学将面目全非,我认为。
Dwarkesh Patel
关于互补性这一点,程序员注意到,借助这些AI工具,他们的生产力大幅提升。我不知道你作为数学家是否有同感,但“氛围编码”和“氛围研究”之间似乎有一个很大的区别:软件的最终目的是通过你的工作对世界产生某种影响,如果AI工具帮助你更好地理解问题或想出某个清晰的抽象来体现在代码中,这对最终目标来说是工具性的。
而在研究中,我们关心解决千禧年数学难题,是因为在解决这些问题的过程中,我们能发现新的数学对象或新的技术,推进人类文明对数学的理解。所以证明本身是为了中间过程服务的。我不知道你是否同意这种二分法,或者这是否在某种程度上解释了我们在软件与研究领域看到的相对提升程度。
陶哲轩
当然,在数学中,过程往往比问题本身更重要。问题某种程度上只是衡量进展的代理指标。我认为即使在软件领域,也存在不同类型的任务。如果你只是创建一个与其他一千个网页功能相同的网页,那里没有需要学习的技能。当然,个人程序员也许仍然能学到一些东西。但对于模板式的代码,这肯定是应该交给AI的事情。
有时候代码写完之后,你还要维护它,涉及升级和与其他系统的兼容问题。我听程序员说,即便AI能创建工具的第一个原型,让它与其他所有东西契合、以他们想要的方式与现实世界交互,仍然是一个持续的过程。如果你缺乏在编写代码过程中培养起来的技能,这可能会影响你日后维护代码的能力。
所以,数学家们确实是用问题来培养直觉,训练人们对什么是真的、什么是可以期待的、什么是可以证明的、什么是困难的有良好的感觉。如果直接拿到答案,实际上可能会阻碍这个过程。
我之前区分了理论与实验。在大多数科学领域,理论方面与实验方面有大致相当的分量。数学是独特的,因为它几乎完全是理论性的。我们非常注重尝试建立连贯、清晰的理论来解释事物为何如此。我们并没有做太多实验,比如说,如果我们有两种不同的方法解决同一个问题,哪种更有效?我们有一些直觉,但没有做过大规模研究,比如取一千个问题然后逐一测试。
但现在我们可以这么做了。我认为AI类工具将会真正革命性地改变数学的实验面,在这种方式下,你不那么在意单个问题和解决问题的过程,而是想大规模收集关于什么有效、什么无效的数据。就像如果你是一家软件公司,要推出一千款软件,你不会真的想手工打造每一款并从中总结经验,你只是想找到能让你规模化的工作流程。
在规模化层面做数学的想法还处于萌芽阶段,但那正是AI将要真正革命化这个领域的地方。
Dwarkesh Patel
我觉得在这些关于AI对科学有多大贡献的讨论中,有一个核心争议点,我想你也说过,就是它们在使用现有技术并加以修改。有趣的是,仅仅通过使用现有技术能取得多少进展。
如果我翻阅顶级数学期刊,有多少论文是在提出新技术(不管这意味着什么),又有多少是将现有技术应用于新问题?这个“潜力空间”有多大?如果把所有已知技术都应用于所有开放问题,会给我们文明的知识带来巨大的提升,还是其实并不那么令人印象深刻?
陶哲轩
这是个好问题,我们目前还没有足够的数据来完整回答它。当然,人类数学家做的很多工作……当你面对一个新问题时,我们首先做的事情之一,就是把所有在过去类似问题上奏效过的标准方法列出来,逐一尝试。有时奏效,这仍然值得发表,因为那个问题本身很重要。
有时这些方法差一点就行了,你需要再加一道皱褶,这也很有意思。但进入顶级期刊的论文,通常是那些现有方法能解决80%的问题,但还有20%顽固地不肯屈服,必须发明新技术来填补空缺的情况。
现在已经很少有问题能够完全不依赖过去文献、所有想法凭空而来地被解决了。这在过去更常见,但数学现在已经如此成熟,不先利用文献会是极大的障碍。
AI工具在第一部分,也就是对一个问题尝试所有标准技术,越来越厉害了,在应用这些技术时犯的错误往往比人类少。它们仍然会犯错,但我用这些工具测试了一些我自己能做的小任务,有时它们会发现我犯的错误,有时我会发现它们犯的错误。目前大致旗鼓相当。
但我还没有看到它们迈出下一步。当论证中出现漏洞、所有方法都不奏效时,怎么办?它们可以随机提出一些东西,但我发现,试图追下去让它们行得通,结果发现行不通,往往比节省的时间还要浪费时间。
我认为,我们目前认为很难的问题中,有一部分会通过这种方法解决,尤其是那些还没有受到足够关注的问题。在埃尔德什问题中,AI解决的那五十个问题中,几乎所有的都是基本上没有相关文献的。埃尔德什只提过一两次这个问题,也许有人随手尝试了一下没做出来,但从来没有写出什么东西。
结果发现,有解法存在,只是把某个不太为人知的技巧和文献中的某个其他结果结合起来就行了。这就是AI目前所能实现的中等水平,这已经非常了不起了。它清除了五十个问题。所以我认为你会看到一些零散的成功。
但我们发现……有人对这些埃尔德什问题做了大规模的扫描。如果你只关注那些成功的案例,那些在社交媒体上广为传播的,看起来令人叹为观止:那些几十年没人解决的问题,现在一个个被攻克。但每当我们进行系统性研究时,AI工具在任何给定问题上的成功率大约只有1%到2%。只是因为它们能买到规模,你只挑赢的展示,看起来就很厉害。
我认为在数百个真正有声望、真正困难的数学问题上,也会发生类似的情况。某个AI也许会走运,真的解决其中一个,存在一条被所有人忽略的捷径。这将引发大量关注。但随后人们会把这些高端工具用在他们自己喜欢的问题上,他们又会再次体验到那1%到2%的成功率。
什么时候有效、什么时候无效,信号中会有大量噪音。收集真正标准化的数据集将变得越来越重要。现在有一些努力,在创建供AI解题的标准挑战题集,而不是只依赖AI公司只发布它们的胜利、不披露负面结果。这也许会让我们对目前实际所处位置有更清晰的认识。
Dwarkesh Patel
不过我认为值得强调的是,能够让模型应用某种以前没有人明确写下来的技术来解决某个特定问题,这本身已经代表了AI多么大的进步。
陶哲轩
这种进步同时令人惊叹又令人失望。看到这些工具实际运作,是一种非常奇特的感觉。但人们也适应得非常快。
我记得谷歌网络搜索二十年前刚出来时,把其他所有搜索引擎都甩在身后。相关结果直接出现在首页,正是你想要的,太了不起了。然后过了几年,你就觉得能谷歌任何东西是理所当然的了。
2026年的AI,放在2021年会令人叹为观止。现在很多东西,人脸识别、自然语音、做大学水平的数学题,我们已经习以为常了。
AI让论文更丰富、更宽广,但不会更深刻
Dwarkesh Patel
说到2026年的AI,你在2023年曾预测到2026年AI将会像数学领域的一位同事?
陶哲轩
如果正确使用的话,是一位值得信赖的合著者。
Dwarkesh Patel
回头来看,这个预测看起来相当准确。
陶哲轩
是的,我很满意。
Dwarkesh Patel
那我们来看看你能不能延续这个准确率。你个人因AI而生产力提升了两倍,你会说那是哪一年?
陶哲轩
生产力,我认为并不完全是一个一维的量。我确实注意到,我做数学的方式正在发生相当大的变化,我所做的事情类型也在变化。比如,我的论文现在包含了更多的代码和图表,因为生成这些东西现在太容易了。以前某个图表可能需要我花好几个小时,现在几分钟就能完成。但在过去,我根本不会把那个图表放进论文里,只是用文字描述一下而已。所以很难衡量“两倍”是什么意思。
一方面,如果没有AI辅助,我今天写出的那类论文肯定要花五倍的时间。但我不会以那种方式写论文。
Dwarkesh Patel
五倍?
陶哲轩
是的,但这些都是辅助性任务,比如做更深入的文献检索,或者提供更多的数值结果。它们让论文更丰富。我所做的核心工作,真正解决数学问题中最困难的部分,并没有太大变化,我仍然用纸和笔来做这些。
但有很多琐碎的事情,现在我用AI Agent来重新排版。有时候如果我的括号大小不太一致,以前我会手动一个个改,现在可以让AI Agent在后台把这些都处理得很漂亮。
它们确实加速了很多次要任务。它们还没有加速我所做的核心事情,但它们让我能够在论文中加入更多内容。同样地,如果我现在要重写一篇2020年的论文,不加任何额外功能,只是保持同等功能,其实说实话并没有节省太多时间。它让论文变得更丰富、更宽广,但不一定更深刻。
Dwarkesh Patel
你区分了“人工聪明”(Cleverness)和“人工智能”。我想更好地理解这两个概念。有没有一个例子,说明什么是智能而不仅仅是聪明?
陶哲轩
智能是出了名的难以定义,是那种你见到就知道的东西。但当我和某人交谈,一起合作解决一个数学问题时,有一种对话,最初我们两个都不知道怎么解决。其中一个人有了一些想法,看起来有苗头,于是我们有了某种原型策略。我们检验它,发现不行,然后修改它。在这个过程中有适应性,想法随着时间不断改进。最终,我们系统地弄清楚了什么行不通、什么行得通,可以看到一条前进的路,这条路是随着讨论演进的。
AI并不完全是这样运作的。AI可以模仿这个过程一点点。回到那些跳跃机器人的类比,它们可以跳了失败,跳了失败。但它们做不到的是跳一点点,抓住某个支撑点,停在那里,把其他人拉上来,然后再从那里尝试跳跃。不存在这种通过互动逐步积累的过程。更像是大量的试错和纯粹的重复:蛮力。它可以规模化,在某些情境下效果惊人。但从局部进展中累积地建立起来,这个能力目前还不到位。
Dwarkesh Patel
有趣。你是说,如果Gemini 3或Claude 4.5,不管哪款,解决了一个问题,并不意味着它自身对数学的理解有所提升?
陶哲轩
不会。
Dwarkesh Patel
甚至如果它研究了一个问题而没有解决,它自身对数学的理解也不会有所提升?
陶哲轩
是的。你开启一个新的会话,它就忘记了刚才做的一切,没有任何新技能可以应用于相关问题。也许你刚才做的事情占了下一代训练数据的0.001%,所以也许最终会有一部分被吸收进去。
如果AI解决了一个问题,人类能从中获得理解吗?
Dwarkesh Patel
我有一个很大的疑问:如果我们不断训练AI,让它们在Lean中解题越来越厉害,它们会不断解决越来越令人印象深刻的问题,然后我们会惊讶地发现,我们从某个Lean对黎曼猜想的证明中几乎得不到任何洞见。这种可能性有多大?
或者你认为,即便是一个完全在Lean中运行的AI去证明黎曼猜想,也必然要求在Lean程序中创建的构造和定义能推进我们对数学的理解?还是说它可以只是一堆汇编代码似的天书?
陶哲轩
我们不知道。有些问题基本上是靠纯暴力解决的。四色定理是一个著名的例子,我们至今没有找到这个定理在概念上优雅的证明,也许永远不会有。有些问题也许只能通过分成大量情况、对每种情况进行蛮力、无洞见的计算机分析来解决。
我们重视黎曼猜想这类问题,部分原因在于我们相当确信需要创造一种新型数学,或者发现两个此前不相关的数学领域之间的新联系,才能解决它。我们甚至不知道解法的轮廓是什么样的,但感觉它不像是一个能够靠穷举情况来解决的问题。
当然,它也可能是假的。好吧,有一种不太可能的情形:猜想是假的,你可以直接计算出一个不在临界线上的零点,然后用大规模计算机计算加以验证。那将会非常令人失望。我确实感到,对于这类问题,完全自主的、一次性的方法并不是正确的路径。人类与这些工具协作互动,会取得更大的收获。
我能想象这类问题会由借助极其强大AI工具的聪明人类来解决。但具体的合作方式,可能与我们现在设想的大相径庭。它可能是一种目前根本不存在的合作形式。
也许可以生成黎曼ζ函数的一百万个变体,借助AI辅助数据分析来发现此前未知的连接它们的某种规律。这让你得以把问题转化到数学的另一个领域。可能存在各种各样的情形。
Dwarkesh Patel
假设AI找到了解法,而潜藏在Lean代码中的是某种全新的构造,如果我们意识到其重要性,就能将其应用于许多不同的场合。我们怎么可能认出它呢?
当然这是一个非常幼稚的问题,但如果你在Lean代码里提出了一个等价于笛卡尔坐标系(统一代数与几何的那个想法)的东西,它在Lean里看起来不过是R→R,看起来不会那么重要。我相信还有其他构造具有这种性质。
陶哲轩
在Lean这样的工具中形式化证明的美妙之处在于,你可以取其中的任何一部分,孤立地加以研究。当我读一篇解决了某个困难问题的论文时,通常有一大串引理和定理。理想情况下,作者会引导你了解什么是重要的、什么不是。但有时他们不会揭示哪些步骤是关键的,哪些只是模板式的标准步骤。
你可以孤立地研究每个引理。有些我一看就觉得相当标准,和我熟悉的东西很像,我相当确定那里没有什么有趣的东西。但这另一个引理,我以前没有见过,我能看出来为什么有这个结果会真正有助于证明主要结论。你可以评估一个步骤是否真的对你的论证至关重要,Lean在这方面确实很有帮助,各个步骤被非常精确地标识出来。
我认为在未来,将会出现整个数学家群体,他们可能会接手一个巨大的Lean生成证明,对其进行消融分析,尝试移除其中的部分,找到更优雅的方式;他们可能会让其他AI做强化学习来让证明更优雅,也许还有其他AI来评判这个证明是否看起来更好。
在不久的将来,我们写论文的方式将会发生相当大的变化。直到最近,写论文一直是工作中最耗时、最费力的部分。所以你很少这么做。只有当论证的其他所有部分都已检验完毕,你才会整理成文,因为重写和重构是一件非常痛苦的事。现在有了现代AI工具,这变得容易多了。你不必只有一个版本的论文,一旦你有了一个,人们可以生成几百个版本。
一个庞大凌乱的Lean证明本身也许没有太大意义或可读性,但其他人可以对它进行重构,做各种各样的事。我们在埃尔德什问题网站上已经看到了这一点。AI生成一个证明,这里有3000行代码来验证这个证明。然后人们让其他AI来总结这个证明,人们再写自己的证明。
其实存在后处理的过程。一旦你有了一个证明,我们现在有很多工具来解构和解释它。这是数学中一个非常新兴的领域,但我对此并不那么担忧。有些人担心如果黎曼猜想被一个完全无法理解的证明所证明会怎样。我认为一旦你拥有了证明这个对象,我们就可以对它进行大量分析。
我们需要一种半形式化语言,来描述科学家实际上如何互相交流
Dwarkesh Patel
你最近发帖说,拥有一种用于数学策略的形式化或半形式化语言将会很有帮助,而不仅仅是Lean所专注的数学证明。我很想多了解一下这将涉及什么,或者会是什么样子。
陶哲轩
我们确实不知道。在数学上我们非常幸运,已经摸清了逻辑和数学的规律,但这是相当晚近的成就。它始于两千年前的欧几里得,但直到20世纪初,我们才最终列出数学的公理,也就是我们所说的ZFC标准公理、一阶逻辑的公理,以及什么是证明。这些我们已经能够自动化,拥有了形式化语言。
也许有某种方式来评估合理性。你有一个关于某事为真的猜想,测试几个例子,结果都成立。这在多大程度上增加了你对猜想为真的信心?我们有几种数学方式来建模这个过程,比如贝叶斯概率。但你通常需要设定某些基本假设,这些任务中仍然存在大量主观性。
这与其说是一个计划,不如说是一个愿望,开发这些语言的愿望,只是看到拥有一个形式化框架(如Lean)是多么成功,已经使演绎证明的自动化和AI训练变得容易太多了……用AI来创建策略和提出猜想的瓶颈在于:我们必须依赖人类专家和时间的检验来验证某件事是否合理。
如果有某种半形式化框架,能以某种不容易被攻破的半自动方式完成这些事……在这些形式化证明助手中,关键一点是不能有后门或漏洞,让人在没有真正证明的情况下获得“已验证证明”的认证,因为强化学习实在太擅长找到这些后门了。
如果有某种框架,能以半形式化的方式模仿科学家互相交流的方式,既使用数据和论证,也构建叙事……科学有一些主观面向,我们不知道如何以一种能将AI以任何有用方式嵌入其中的方式加以捕捉。这是一个未来的问题。有一些研究工作试图创建自动化猜想,也许有办法对这些进行基准测试和模拟,但一切都非常新。
Dwarkesh Patel
你能帮我建立一些直觉吗?我有两个子问题。第一,有一个具体的例子会非常有帮助,说明科学家交流中那些我们目前还无法形式化的内容是什么样子的。
第二,说你正在构建某种叙事或自然语言解释,同时又说能将其形式化,这在定义上几乎是自相矛盾的。我相信其中有某种直觉在说明两者的重叠之处,我很想更好地理解这一点。
陶哲轩
举一个猜想的例子:高斯对素数很感兴趣,创建了最早的数学数据集之一。他计算出了前约十万个素数,希望从中发现规律。他确实发现了一个规律,但也许不是他所期望的那种。他发现了素数中的一个统计规律:如果你统计100以内、1000以内、一百万以内等等各有多少素数,它们变得越来越稀疏,但密度下降的速度与数字范围的自然对数成反比。
于是他提出了我们现在称之为素数定理的猜想:X以内的素数个数近似等于X除以X的自然对数。他无法证明这一点,这是数据驱动的,是一个猜想。这在当时是革命性的,因为它也许是数学史上第一个真正重要的统计性质的猜想。通常人们谈论的是某种规律,比如素数间距具有某种规律性。但这个定理并不告诉你在任何给定范围内确切有多少素数,只是给出一个近似,这个近似随着范围扩大而越来越准确。
这开创了我们所说的解析数论这一领域。这是许多类似猜想的第一个,其中许多后来被证明了,这些证明不断巩固了一个想法:素数并没有真正的规律,它们的表现就像是某种特定密度的随机数集合。它们有某些规律,比如几乎全是奇数;但它们也不是真正随机的,它们是所谓的“伪随机”,生成素数的过程中不涉及任何随机数生成。但随着时间推移,把素数想象成某位神灵不断掷骰子生成的随机集合,这种思维方式越来越富有成效。
这让我们能够做出各种其他预测。数论中有一个至今未解的猜想叫孪生素数猜想,即应该存在无穷多对相差为2的素数,比如11和13。我们无法证明这一点,并且有充分的理由说明为什么我们无法证明。但由于这个素数统计随机模型,我们对它的真实性确信无疑。我们知道,如果素数是靠抛硬币生成的,只要靠随机机会,就像无限只猴子在打字机上打字,孪生素数就会一遍又一遍地出现。
随着时间推移,我们基于统计和概率发展出了这个关于素数应当如何表现的非常精准的概念模型。它主要是启发式的、非严格的,但极其精确。为数不多的几次我们真正能够证明关于素数的一些事情时,结果总与我们所说的素数随机模型的预测相吻合。我们拥有这个所有人都相信的关于理解素数的猜想性概念框架。这也是我们相信黎曼猜想为真的原因,也是我们相信基于素数的密码学在数学上是安全的原因。这一切都是这种信念体系的组成部分。
事实上,我们关心黎曼猜想的一个原因是:如果黎曼猜想失败,如果我们知道它是假的,这将对这个模型是一个严重的打击。这意味着素数中存在我们此前未知的某种隐藏规律。我认为我们会非常迅速地放弃任何基于素数的密码学,因为如果存在一个我们不知道的规律,很可能还有更多,而这些规律可能导致密码被攻破。那将是一个巨大的震动。所以我们真的希望确认这种情况不会发生。
随着时间的推移,我们对黎曼猜想之类的事情越来越有把握。一部分来自实验证据,一部分是因为我们为数不多的几次能够得出理论结果时,它们总是与预测吻合。当然,也有可能共识是错误的,我们都只是遗漏了某个非常基本的东西。科学史上曾经发生过范式转变。但我们没有真正的方法来衡量这一点,部分是因为我们没有足够的数据了解数学或科学是如何发展的。我们只有历史的一条时间线,也许只有大约一百个历史转折点的故事。
如果我们能接触到一百万个外星文明,每个文明都有不同顺序的不同历史和科学发展,那么也许我们真的有机会理解如何衡量什么是进步、什么是好的策略,从而也许能够开始将其形式化,真正建立一个框架。也许我们需要做的是,开始创建许多小宇宙或模拟,让AI解决算术或其他方面的非常基础的问题,但让它们自己提出解决这些问题的策略,把这些小实验室用来测试。有人研究什么是能做10位数乘法的最小神经网络之类的问题。我认为,仅仅通过在简单问题上演化小型AI,我们就可以学到很多东西。
陶哲轩如何分配时间
Dwarkesh Patel
你不仅需要非常迅速地了解新领域,还要理解得足够深入,深入到能够贡献前沿成果。在某种意义上,你也是世界上最伟大的自学者之一。你学习数学新子领域的过程是什么?那是什么样的?
陶哲轩
我们之前谈过深度和广度。这不是纯粹的人类与AI的区别,人类之间也有这种区分。我记得是柏林提出把人分成“刺猬”和“狐狸”:刺猬对一件事了解得非常深,狐狸对很多事情都知道一点。我肯定认为自己是狐狸。我经常与刺猬合作,有时也能在需要时成为刺猬。
我一直有一点强迫性倾向。如果我读到了某些我感觉自己有能力理解却还不理解其原理的东西,其中有某种神奇之处……某人用了我不熟悉的一类数学,得到了我希望证明的结果,我自己做不到,但他们用自己的方法能做到,我想弄清楚他们的诀窍是什么。别人能做到我认为我能做到的事而我却不能,这让我很烦。我一直有这种强迫性、完美主义的倾向。我不得不让自己戒掉电脑游戏,因为一旦开始一款游戏,我就想打通关,过完所有关卡。这是我学习新领域的方式之一。
我与很多人合作,他们教会了我其他类型的数学。我结交一位研究其他数学领域的数学家朋友,我觉得他们的问题很有趣,但他们需要教我一些基础技巧,以及什么是已知的、什么是未知的。我从中学到了很多。
我发现,写下所学的内容很有帮助。我有一个博客,有时会记录我学到的东西。年轻时,我会学到某些东西,用了某个很酷的技巧,心想“好,我要记住这个”,然后六个月后我忘了。我记得曾经理解过它,但无法重建我的论证。前几次,理解了某样东西然后又失去,这种挫败感太强烈了。我觉得应该把任何学到的有趣东西都写下来。这就是博客的由来之一。
Dwarkesh Patel
你写一篇博文需要多长时间?
陶哲轩
这通常是我不想做其他工作时会做的事。有时有些审稿报告或什么事情让我当时感到有些不情愿。写博客感觉充满创意、很有趣,是我为自己做的事。
根据主题不同,可能需要半小时,也可能需要几个小时。因为这是我自愿做的事,写这些东西时时间飞逝,相比之下,做那些我出于行政原因不得不做的事简直是苦役。顺带一提,那些任务,AI现在确实帮了大忙。
Dwarkesh Patel
如果文明可以从第一性原理出发,决定如何使用陶哲轩的时间,作为一种有限资源,最大的不同会是什么?如果在无知之幕后决定如何使用陶哲轩的时间,与现实情况相比?这个播客就不会存在了。
陶哲轩
尽管我抱怨某些我不想做但不得不做的任务……随着在学术界资历越来越深,你承担越来越多的责任、越来越多的委员会之类的事情。但我也发现,很多我因为某种原因不得不参加的活动,尽管那超出了我的舒适区,但往往导致了我平时不会进行的互动,比如和你的对话。我会学到有趣的东西,有有趣的经历,然后有机会与我以前从来不会结识的人建立联系。
所以我非常相信偶然性。我确实会把一天中的某些部分安排得非常仔细。但我也愿意把一些部分留给做一些不是我日常习惯的事情。也许会浪费时间,但也许我会学到一些东西。往往我会有一些没有计划到的积极经历。
所以我非常相信偶然性。现代社会可能存在一种危险,不只是因为AI,就是我们已经非常擅长优化一切,却没有优化我们的“优化过程”本身。以几年前为例,我们大量转向远程会议,于是所有事情都被拍进了日程中。在学术界,我们保持着忙碌,见到的人几乎和面对面时一样多,但一切都必须提前计划。我们失去的是那种随意敲响走廊里别人的门、或者取咖啡时偶遇某人的体验。那些偶然的互动看起来也许并不最优,但其实非常重要。
我念研究生时,去图书馆查一篇期刊文章,你必须把那本期刊实际借出来阅读,然后可以随手翻翻,偶尔发现下一篇文章也很有趣,有时不是,但你可能会意外发现有趣的东西。这基本上已经消失了。现在如果你想查一篇文章,只需把它输入搜索引擎或AI,立刻就能得到你想要的东西,但你得不到那些如果走更低效路径可能偶然发现的东西。
我曾在高等研究院待过一年,那是一个很棒的地方,没有什么干扰,你只需要做研究。头几周非常美好,你把一直想写的论文都写出来了,可以连续几个小时思考某个问题。但我发现,如果在那里待超过几个月,我的灵感就会枯竭,我会感到无聊,开始大量上网冲浪。
你的生活中确实需要一定程度的干扰。它增加了足够的随机性和“高温”。我不知道如何最优地安排我的生活,但它看起来就是在运转。
人类-AI混合体将在数学领域占主导地位更长时间
Dwarkesh Patel
我非常好奇,你预计什么时候AI能够真正在数学前沿做到至少与最优秀的人类数学家同等水平?
陶哲轩
从某种程度上说,它们已经在做人类无法完成的前沿数学了,但那是一个与我们熟悉的前沿不同的前沿。你可以说,计算器在做人类无法完成的前沿数学,但那是数值计算。
Dwarkesh Patel
但说的是完全取代陶哲轩。
陶哲轩
我是说,你还需要我做什么?
Dwarkesh Patel
你就去参加所有播客就行了。
陶哲轩
这也许不是个正确的问题。我认为在十年内,数学学生目前做的很多事情,我们花大量时间做的事情,以及今天我们写进论文的很多内容,都可以由AI来完成。但我们会发现,那其实并不是我们所做工作中最重要的部分。
一百年前,许多数学家只是在求解微分方程。物理学家需要某个方程组的精确解,于是他们雇一名数学家,辛苦地推导微积分,求解这个流体方程,诸如此类。19世纪数学家做的大量工作,今天只需调用Mathematica、Wolfram Alpha、计算机代数软件包,或者更近来的AI,几分钟内就能解决。但我们继续前进,转向了不同类型的问题。
计算机出现之后,“计算机”过去指的是人。人们曾经辛苦地创建对数表,像高斯那样逐一计算素数,这一切都外包给了计算机。但我们继续前进了。
在遗传学领域,给单个生物体的基因组测序,曾经是一个遗传学家整个博士研究,要仔细分离所有染色体,等等。现在你只需花1000美元,把样本寄给测序机构就搞定了。但遗传学作为一门学科并没有消亡。你转向了不同的规模,也许研究整个生态系统而不是个体。
Dwarkesh Patel
我理解你的观点,但什么时候大多数数学进步,或者说几乎所有数学进步是由AI完成的?如果你今年得知某个千禧年数学难题被解决了,你会以95%的概率判断是AI自主完成的。肯定会有这样一年。
陶哲轩
我想我确实相信,人类加AI的混合体将在数学领域占主导地位更长时间。这将取决于情况,需要在我们已有的基础上取得一些额外的突破,所以会是随机性的。我认为AI目前在某些事情上非常擅长,但在另一些事情上真的很差。虽然你可以在上面叠加越来越多的框架来降低错误率、让它们更好地配合工作,但感觉我们还没有齐备所有要素,无法真正拥有能令人满意地替代所有知识任务的东西。
目前是互补,不是替代。由于当前水平的AI正在以如此多的方式加速科学,有望新发现和新突破更快到来。但也有可能通过消除偶然性,我们反而阻碍了某些类型的进步。在这个时间点上,什么都有可能,我认为世界现在是非常、非常不可预测的。
Dwarkesh Patel
你对那些正在考虑数学职业,或者处于数学职业早期的人有什么建议?特别是考虑到AI的进展,他们应该如何看待自己的职业,如果需要改变的话?
陶哲轩
我们生活在一个变化的时代。如我所说,我们处于一个特别不可预测的时代。几个世纪以来被视为理所当然的事情,也许不再成立。我们做任何事情的方式,不仅仅是数学,都将改变。在很多方面,我更怀念那个无聊而平静得多的时代,那时候事情和十年前、二十年前大致相同。但我认为,人们必须接受将会有大量变化。你所学的东西,有些可能会过时或被彻底革新,但有些会被保留下来。
你必须时刻关注那些以前无法实现、如今却成为可能的机会。在数学领域,以前你必须经过多年多年的教育、拿到数学博士才能为数学研究前沿做出贡献。但现在,凭借所有这些AI工具、Lean以及其他一切,在高中阶段就完全有可能参与一个数学项目并做出真正的贡献。
非传统的学习机会将会很多,所以你需要非常具有适应性的心态。会有空间去追求纯粹出于好奇的事情、去随意探索玩耍。你仍然需要获取相关资质,在相当一段时间内,通过传统教育、以老方式学习数学和科学仍然很重要。但你也应该对做科学的非常不同的方式保持开放,其中一些方式目前还不存在。这是一个令人恐惧却又非常令人兴奋的时代。
Dwarkesh Patel
这是一个很好的结语。陶哲轩,非常感谢。
