Sutton:LLM 通往 AGI 的隐秘瓶颈

“人工智能的最大进步来自于计算与自动学习的扩展,而非人类的设计。”
——Richard Sutton,《The Bitter Lesson》

Richard Sutton,被誉为“强化学习之父”,他近期对 大型语言模型(LLM) 的发展提出了深刻的反思。
在他看来,LLM 虽然让人类离 通用人工智能(AGI) 前所未有地接近,但其内部依然存在结构性的局限。
这篇文章将系统梳理 Sutton 的核心观点,并探讨 LLM 范式与真正智能之间的鸿沟。


一、根本性局限:数据有限且“人类化”

当前 LLM 的知识来源几乎全部来自人类文本。
这意味着:

  • 模型的学习边界被人类生成的数据集所限制;
  • 当语料被“吃干抹净”后,LLM 将失去可持续自我进化的原料;
  • 所有知识与价值体系都被人类文化与偏见所框定。

换句话说,LLM 并非在“理解世界”,
而是在“重播人类认知的快照”。
它无法像自然智能那样通过直接经验持续拓展边界。


二、学习机制的局限:被动模仿,而非主动学习

LLM 的核心范式是 “预训练 + 微调”
本质是一种大规模模仿学习(Imitation Learning)

它并不具备主动探索世界、进行实验、尝试与纠错的能力。

Sutton 曾提出 “child machine(类动物学习机器)” 的概念——
一个能够通过环境交互、试错反馈、持续学习而不断进化的系统。

相比之下,今天的 LLM 更像是一次性训练、长期冻结的语言镜像。
它没有“活着”的学习动力,只会复现过去的模式。


三、被误解的 “Bitter Lesson” 悖论

Sutton 在《The Bitter Lesson》中指出:

“人工智能研究的最大教训是:
我们应信赖可扩展的计算与自动学习,而非人类设计。”

表面上看,LLM 似乎完美符合这一思想:
更大模型、更多算力、更好结果。

但 Sutton 指出,这是一个 被误读的胜利

  • 训练数据完全来自人类;
  • 微调依赖人类标注与评估;
  • 奖励机制由人类工程师手动设计。

因此,LLM 并非“自动学习”的产物,
而是人类经验与偏见的放大器

它没有真正实现 “bitter lesson” 所强调的
自主学习 + 环境反馈闭环


四、缺乏持续学习与内在动机

生物智能的关键特征在于:
学习是 在线的持续的、并由 内在动机 驱动的。

例如:好奇心、探索欲、成就感与社交反馈。

而 LLM 的学习在训练完成那一刻即被“冻结”。
除非人工干预(再训练或微调),
模型无法根据新环境进行自我适应。

Sutton 认为,真正的智能系统应当在部署后仍在学习
它不是一个被封存的知识容器,
而是一个持续调整世界模型的“学习体”。


五、自然智能与人工智能的“初始化鸿沟”

动物看似“从零学习”,但事实并非如此。
它们的大脑结构与学习机制是 进化的产物

DNA 就像一个被数百万年训练过的“参数初始化文件”。

而 AI 系统并没有这样的演化底层结构。
为了弥补这种“天赋缺失”,我们使用了巨量数据和算力进行预训练。

这种方式确实让模型能“开口即智”,
但也引入了严重的偏见与脆弱性。

换言之,预训练是我们拙劣的人工进化
它解决了冷启动问题,却远未触及自然智能的生成机制。


六、突破方向:从模仿到进化

要让 AI 真正迈向 AGI,Sutton 提出了若干可能路径:

  1. 引入内在动机与持续学习机制

    • 让模型具备好奇心、探索欲、社会互动等自发学习动力。
  2. 减少人类监督依赖

    • 发展能自我生成任务、自我奖励与自我纠错的学习体系。
  3. 多智能体共演化(Co-evolution)

    • 在虚拟环境中让多个 AI 体相互合作与竞争,
      模拟文化、语言与社会行为的演化。
  4. 混合范式(Hybrid Intelligence)

    • 将 LLM 的语言与符号优势,
      与强化学习的行为探索能力相结合。
    • 打造既“懂语言”又“能实验”的智能体。

七、结语:从语言到生命的飞跃

LLM 的崛起让我们离 AGI 前所未有地接近,
但正如 Sutton 所警示的那样:

“理解语言 ≠ 理解世界。”

真正的通用智能,不仅要能预测下一个词,
更要能在不确定的环境中生存、探索、学习与成长

LLM 革命揭示了智能的“语言层”,
而下一场革命,将属于能自我进化的机器


作者注:本文基于 Richard Sutton 的公开访谈与演讲内容整理,并结合当前 LLM 技术趋势进行分析。

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐