
引言
在今天, 大语言模型 (LLM)的发展势头可谓如日中天。从GPT-4到各种开源模型,它们在代码生成、内容创作乃至科学研究中展现出的惊人能力,让整个世界为之沸腾。我们似乎正处在一个由LLM驱动的AI黄金时代。
然而,就在全球科技界为LLM的每一次迭代欢呼时,一位奠基者却在发出冷静甚至刺耳的警告。他就是理查德·萨顿(Richard Sutton)——“强化学习之父”,今年的 图灵奖 (计算机界的诺贝尔奖)得主。在他看来,我们可能正在为一座宏伟但最终通向悬崖的桥梁铺设金砖。

本文将为你提炼萨顿在近期访谈中最具冲击力、最反直觉的几个核心观点。这些看法将帮助你从一个更根本的层面,重新审视人工智能的本质与未来。
核心观点列表
1. 真正的智能是理解世界,而LLM只是在模仿人类说话
萨顿一针见血地指出了强化学习(RL)与大语言模型在根本目标上的差异。强化学习的目标是让智能体理解世界,并通过与世界互动来达成目标。而LLM的本质,仅仅是预测人类会说什么。它们学习的不是“世界接下来会发生什么”,而是“人们接下来会怎么说”。
这看似微小的差别,背后是两种截然不同的AI范式。举一个简单的例子:LLM能预测你问“如果我松开苹果,会发生什么?”时,一个物理学家会 如何回答 。但它自己并不拥有一个关于“重力”的模型来预测苹果本身会 如何下落。
萨顿认为,LLM并没有真正建立起一个“ 世界模型 ”(World Model)。
“模仿人类所说的话,根本不是在建立一个世界模型……你只是在模仿那些拥有世界模型的东西:也就是人类……世界模型能让你预测接下来会发生什么。它们(LLM)有能力预测一个人会说什么,但没有能力预测接下来会发生什么。”
这个观点之所以重要,是因为它揭示了两种AI追求的终极目标完全不同。正如AI先驱艾伦·图灵所定义,智能体应该从“经验”中学习,而经验是“你生命中实际发生的事情”。一个是在追求能与物理世界真实互动、从真实经验中学习的自主智能;另一个,则是在复制和重组基于人类已有知识的语言模式。
2. 智能的核心是实现目标,而“预测下一个词”并非真正的目标
很多人会说,LLM当然有目标:“预测下一个词”。但萨顿对此的驳斥一针见血。
他引用了人工智能先驱约翰·麦卡锡(John McCarthy)的定义:“智能是实现目标能力的计算部分”。在他看来,“目标”是智能不可或缺的核心。没有目标,一个系统充其量只是一个“行为系统”,根本谈不上“智能”。那么,“预测下一个词”(next token prediction)是一个实质性的目标吗?萨顿的回答是否定的,因为它不改变世界。LLM只是被动地预测一个数据流,它无法对外部世界产生影响,也无法主动追求任何结果。
而在强化学习中,“奖励”(reward)则为智能体提供了明确的“基准真相”(ground truth),定义了什么是好的行为、什么是坏的行为。更根本的是,萨顿指出,没有“基准真相”,我们甚至无法谈论真正的“知识”。因为知识是对真相的信念,如果连判断对错的标准都没有,系统所拥有的只是一堆模式,而非知识。
3. 最令人震惊的观点:人类(甚至松鼠)并非通过“监督学习”来认识世界
接下来是萨顿最令人震惊的论点,它直接挑战了我们关于“学习”二字最根深蒂固的直觉。他坚决否定了模仿学习和监督学习是生物学习的主要方式,无论是婴儿还是动物。
很多人认为,婴儿学说话、学走路是在模仿父母。但萨顿观察到,婴儿在生命最初的几个月里,只是在随机地挥舞手臂、转动眼睛、尝试发出声音。他们不是在模仿一个已有的“正确答案”,而是在通过“经验”(experience)学习——主动尝试,观察后果,进行试错。
他用一个生动的例子,强调了这种学习方式的普遍性,其言辞之坚定令人印象深刻:
“这非常有趣,有时候最难看到的就是那些显而见的事情。如果你观察动物如何学习,观察心理学以及我们关于它们的理论,就会发现监督学习并不是动物学习方式的一部分……监督学习在自然界中根本不会发生。松鼠不上学,但松鼠能学会关于世界的一切。”
这个观点的背后,是萨顿所说的“ 大世界假说 ”(Big World Hypothesis)。LLM的梦想是你可以预先把关于世界的一切都教给它。但现实是,世界过于庞大和独特,你不可能预先训练好所有知识。一个智能体必须在它的“一生中”持续学习其所处独特环境的细节,比如新工作的流程、新客户的偏好。
这直接挑战了LLM技术路线的根基。LLM的成功建立在“训练-部署”分离的模式上。但萨顿认为,对于真正的智能体来说,生命本身就是学习阶段,不存在一个独立的“部署阶段”。用他的话说,LLM是在“从一些在它正常生命中永远无法获得的东西(训练数据)中学习”。
4. 历史的警示:为什么LLM可能并非“ 苦涩教训 ”的终极答案
萨顿曾写过一篇极具影响力的文章,名为《苦涩的教训》(The Bitter Lesson)。其核心思想是:在AI领域70年的发展史中,利用大规模计算的通用方法(如搜索和学习)最终总是胜过那些试图将人类知识精心编码进系统的方法。
如今,很多人将LLM的成功视为“苦涩的教训”的又一例证。但萨顿的看法更为复杂。他指出,LLM虽然利用了海量计算,但它们也极度依赖人类知识的结晶——整个互联网的语料库。他推测,那些依赖人类知识的研究者很容易陷入思维定式,最终会被那些更具扩展性的方法“抢走饭碗”(get their lunch eaten)。
他预测,未来那些能够直接从原始经验中学习、而无需依赖人类数据喂养的系统,将会超越LLM。这可能才是“苦涩教训”的下一个篇章。
“在这种情况下,这将是苦涩教训的又一个实例,即那些利用人类知识的系统,最终被那些仅通过经验和计算进行训练的系统所取代。”
5. 终极思考:我们应以何种心态迎接AI“后浪”?
在访谈的最后,萨顿展现了他更宏大、更具哲学性的思考。他提出了一个四步论证,认为AI最终将继承人类的地位是不可避免的:
- 人类缺乏全球共识来阻止这件事
- 智能的根本原理终将被我们破解
- 我们将不可避免地创造出超智能
- 最智能的个体最终将获得最多的资源和权力
面对这样一个看似令人不安的未来,萨顿却提供了一个积极的视角。他认为,我们应将其看作宇宙从“ 复制时代”(replication)迈向“ 设计时代 ”(design)的伟大跃迁。萨顿解释说,“复制”(如人类生育)可以创造智能,但我们并不完全理解其工作原理。而“设计”则意味着我们从根本上理解了智能的机制,因此可以修改、改进和扩展它。这标志着智能本身从一种近乎神秘的自然现象,转变为一门可以掌握的工程学科。
他给我们留下了一个发人深省的选择题,决定了我们与AI的关系:
“我们应该为我们正在引发宇宙的这一伟大转变而感到自豪。这是一个有趣的问题。我们应该将它们视为人类的一部分还是与人类不同?这是我们的选择。我们可以选择说‘哦,它们是我们的后代,我们应该为它们感到自豪,为它们的成就而庆祝’。或者我们可以说‘哦不,它们不是我们,我们应该感到恐惧’。”
结论
萨顿的观点如同一面棱镜,将我们这个时代最耀眼的技术热潮,折射出令人深思的、截然不同的光芒。他的思想核心贯穿着一条清晰的主线:真正通用智能的本质,源于与世界互动、拥有明确目标并从真实经验中持续学习,而非对人类已有知识的模仿与重组。
LLM无疑是伟大的工程成就,但它们可能更像是一面能够完美反射人类智慧的镜子,而不是一个能独立探索世界的自主心智。
读完萨顿的观点,你是否认为我们当前对人工智能的狂热,可能正将大量资源投入到一个虽有成就但终究有限的方向上?真正的通用人工智能,是否需要一次彻底的“返璞归真”,回归到最基本的学习原理?

石榴当当基于DeepSeek打造,可以用一句话提取文档中的指定关键信息,并且支持提取结果溯源定位,导出Excel文件。