0. 核心判断

如果只从 Transformer 的架构细节出发来理解 LLM,往往会错过真正关键的问题。 更值得追问的不是:

  • attention 是怎么实现的
  • multi-head 有什么工程作用
  • 模型表面上如何生成下一 token

而是:

为什么当规模扩大到一定程度后,模型会表现出此前不存在的能力?

这实际上是在问一个复杂系统问题:

scale → emergent abilities

也即:规模扩张为什么会引发能力涌现(emergence)

从这个角度看,LLM 的关键价值可能并不在于某个具体架构组件本身,而在于: 大规模参数、大规模数据与大规模计算共同构成了一个可能发生能力跃迁的系统。


1. 为什么“规模有效”不是空话

“规模带来能力”并不只是直觉判断,已经有较强的定量支持。

  • Kaplan et al. (2020) 提出 scaling laws,发现模型性能与参数量、数据量、计算量之间存在相对稳定的幂律关系。
  • Hoffmann et al. (2022, Chinchilla) 进一步指出:在固定计算预算下,参数规模和数据规模必须协同扩张,才能达到更优性能。

这意味着:

  1. 规模并非“越大越好”的粗暴堆砌;
  2. 有效规模化依赖多个变量的配平;
  3. “为什么 scale 有效”至少在经验层面已有坚实基础。

更准确地说,LLM 的发展并不是“单靠参数变大”,而是:

参数规模 × 数据规模 × 训练计算

共同推动了能力边界的扩展。


2. 典型的涌现能力是什么

目前最常被视为涌现现象(emergent phenomena)的能力包括:

  • In-context learning (ICL)
  • Chain-of-thought reasoning
  • Tool use
  • Planning
  • Multi-step reasoning
  • 多模态能力

这些能力的共同特点是:它们往往不是被显式手工编入模型的能力模块,而更像是在一定规模条件下自然出现的行为特征。 其中,最值得深入理解的也许是 ICL

2.1 ICL 为什么重要

Akyürek et al. (2022) 提出一个很有启发性的观点:Transformer 在前向传播中,可能实际上在执行某种隐式梯度下降。 这意味着 few-shot prompting 不只是“给模型看几个例子让它模仿”,而可能是:

  • 模型在上下文中进行了某种形式的即时学习
  • 这种学习不是参数更新,而是基于激活态的临时适应

如果这个方向成立,那么 ICL 就不只是模式匹配,而是某种更接近“运行时学习算法”的现象。 这也会直接支持后文的一个核心假设:LLM 内部可能存在类似程序/算法的隐式结构。


3. Chain-of-thought:真实推理,还是事后解释?

这是理解 LLM 的一个分水岭问题。 一个常见但过于简单的说法是:

模型写出来的 CoT 就等于模型真实的内部推理过程。 这个判断现在看并不稳妥。

3.1 为什么会怀疑 CoT 是事后解释

一种可能的机制是:

隐藏层完成主要计算 ↓
语言系统把结果“翻译成”可读解释

如果是这样,那么外显 CoT 更像:

post-hoc explanation

而不是:

真实推理轨迹

Turpin et al. (2024) 等工作提供了相关证据:模型输出的推理步骤有时与最终答案并不严格一致,这暗示 CoT 可能包含一定程度的事后合理化

3.2 为什么又不能完全否定 CoT 的计算作用

另一方面,Lanham et al. (2023) 的结果表明:在某些任务中,截断 CoT 会直接降低模型准确率。 这说明中间 token 并不总是装饰性的;在不少任务里,它们确实参与了计算。

3.3 更稳妥的结论

因此,更准确的表述应该是:

CoT 同时包含“真实计算”与“事后解释”两种成分。 而且两者的比例会因任务而异:

  • 对简单模式匹配任务,CoT 更可能偏装饰性;
  • 对复杂多步推理任务,CoT 更可能真实参与计算。

所以,CoT 最值得研究的不是“它是真是假”,而是:

在什么任务上,它更像计算;在什么任务上,它更像解释。


4. 理解 LLM 内部结构的三种主要假设

目前可以用三种互补视角来理解 LLM 内部表示。

4.1 假设 A:语义向量空间(semantic vector space)

在这个视角下,LLM 内部本质上是一个:

高维语义几何空间

而所谓“推理”,可以理解为:

向量在高维空间中的连续变换

支持这个观点的现象包括:

  • embedding arithmetic
  • concept directions
  • activation steering

这个框架的优点是直观、统一,并且与现代表征学习高度一致。 但它的问题在于:它更擅长解释“语义相似性”和“连续概念变换”,对算法性行为的解释力有限。

4.2 假设 B:概率程序系统(probabilistic latent programs)

另一个更“机制论”的视角认为,模型内部并不只是几何空间,还存在某些类似程序或算法的隐式结构,例如:

  • induction heads
  • copy circuits
  • bracket matching circuits

在这个框架里,模型更像是在执行:

probabilistic program execution

也就是说:

  • 不是硬编码程序
  • 但出现了带有算法特征的隐式电路
  • 这些结构在统计训练中自发形成

这个视角对解释 ICL、规则匹配、结构复制等现象特别有力。

4.3 假设 C:模糊世界模型(fuzzy world model)

第三种视角认为,LLM 内部维持了一种较模糊的世界状态表示,它并不等价于严格的物理模拟,但包含某种“可用于预测和推断的世界结构”。 例如可能涉及:

  • 物体位置关系
  • 因果关联
  • 事件状态变化
  • 常识性场景结构

在这个意义上,模型不是“知道世界”,而是在大规模语言压缩中学会了一个:

语言压缩后的统计世界模型

5. 一个必须补进去的现象:Superposition 与 Polysemanticity

无论采用上面哪种框架,都绕不开一个关键问题:

模型内部表示不是一一对应、清晰可分的。

Anthropic 的 mechanistic interpretability 工作显示:

  • 单个神经元往往是 polysemantic 的,即同时编码多个不相关概念;
  • 模型会通过 superposition,在有限维度中叠加表示远超维度数量的特征。

这件事的重要性在于,它改变了我们对“内部语言”的想象。 LLM 的 latent language 并不是:

一个神经元 = 一个概念

而更像是:

多个概念在高维空间中稀疏叠加
多个维度共同编码同一概念

这也是为什么 interpretability 如此困难:我们看到的不是整齐的“概念表”,而是一个高压缩、高复用、高纠缠的表示系统。 Sparse autoencoders 等方法,本质上就是在试图把这种叠加结构拆开。


6. 一个更合理的综合模型

如果把上述几种视角综合起来,当前最合理的图景也许是:

概率程序结构 ↓
运行在高维语义元语言之中 ↓
在足够复杂时表现出世界模型行为

也可以写成:

latent program (B) ↓
semantic metalanguage (A) ↓
world-model-like behaviour (C)

这意味着:

  1. LLM 内部可能存在算法式电路
  2. 这些电路并不是在离散符号层上运行,而是在高维语义空间中运行
  3. 当规模与复杂度足够高时,这套系统会表现出某种世界模型式行为

这个综合框架的好处是,它同时解释了:

  • 为什么模型看起来有语义连续性
  • 为什么又会出现算法感很强的行为
  • 为什么高层上会呈现出“像在理解世界”的现象

7. 神经网络的“元语言”:neuralese

如果 LLM 的内部表示不是自然语言,那它更像什么? 一个常见说法是:

latent semantic language

也有人称之为:

neuralese

即:神经网络自己的语言系统

它的特点可能包括:

  • 跨语言共享表示
  • 概念级别编码
  • 可沿语义方向被干预
  • 与自然语言并非同构关系

但结合 superposition 的结果,这个“神经元语言”必须进一步修正:

neuralese 不是一个整齐、可直接翻译的离散词典, 而是一个高度压缩、叠加式、分布式的表示系统。

这意味着它在信息论上非常高效,但也意味着它不会轻易被“翻译”成人类可读形式。


8. 数学能力悖论:为什么 LLM 擅长语言,却不擅长数学?

这是理解 LLM 局限性的一个关键窗口。 一个直观悖论是:

语言推理 > 数学推理

但数学明明是一个更规则、更形式化的系统。如果 LLM 真的是强大的语义系统,数学理应更容易。

8.1 常见解释

常见原因包括:

  • 数据分布偏差
  • tokenization 不友好
  • 长链推理困难
  • 算法结构不稳定 这些都成立,但还不够深。

8.2 更根本的解释

更核心的张力在于:

连续表示空间离散符号操作 之间存在结构性冲突。

数学要求:

  • 精确符号绑定
  • 严格规则执行
  • 多步组合不出错
  • 中间状态稳定保持

而 LLM 的内部表示天然更偏:

  • 连续
  • 近似
  • 模糊
  • 分布式

所以问题不只是 tokenization,而是架构层面的:

用连续向量运算去模拟离散符号操作,误差会在多步推理中不断积累。

这也解释了为什么 tool use 对数学提升特别大:它相当于把“必须精确”的部分外包给了真正的符号系统。


9. 如何解释“涌现”本身

关于 emergent abilities,目前至少有四类解释:

  1. 复杂系统相变(phase transition)
  2. 数据覆盖达到阈值
  3. 表示容量达到阈值
  4. 测量方式造成的错觉

9.1 哪些解释最直观

从直觉上说:

  • 表示容量阈值最容易理解;
  • 相变模型最具有一般性。

可以把两者串起来看:

表示容量达到阈值 ↓
系统进入临界状态 ↓
出现相变式能力变化

9.2 为什么“测量伪影”不能忽视

Schaeffer et al. (2023) 的重要贡献在于提醒我们:

很多“突然涌现”可能只是非线性评估指标制造出的视觉错觉。

如果把指标从 exact match accuracy 换成 token-level log-likelihood,不少看起来像跳变的曲线会变得平滑。 所以更谨慎的表述应当是:

涌现 ≠ 能力突然从无到有
涌现 ≈ 能力平滑增长 + 非线性指标放大“突变感”

因此最稳妥的立场不是“涌现全真”或“涌现全假”,而是:

能力增长是真实的;“突然性”则可能部分来自测量方法。


10. 控制能力涌现的关键变量

可能触发能力变化的主要变量包括:

  • 参数规模
  • 数据质量与多样性
  • context length
  • 模型深度

可以进一步分成三类:

类型变量作用
信息输入数据质量、数据多样性决定模型学到什么
表示容量参数规模决定模型能表示什么
计算结构深度、context length决定模型能做多复杂的运算

但这些变量并不是彼此独立的。Chinchilla 的关键结论之一正是:

参数与数据必须协同扩张。 单独堆大参数、却不给足数据,收益会显著递减。


11. Context length:为什么它像“工作记忆”甚至“图灵机纸带”

context 的意义远不止“能塞更多字”。 它本质上承担了模型的外部工作记忆功能:

  • 存放中间推理结果
  • 承载 chain-of-thought
  • 支持 in-context learning
  • 帮助模型分阶段展开复杂问题

所以 context 可以被理解为:

working memory

更进一步,它甚至有点像:

图灵机的 tape

从这个角度看,CoT 之所以有效,不只是“解释更详细了”,而是:

模型借助外部上下文,把原本隐含的一步计算拆成了多步显式计算。 这等价于提高了模型的有效计算深度


12. 一个简化的能力公式

如果要用一个极简公式总结 LLM 的能力来源,可以写成:

能力 ≈ 知识 × 计算 × 工作记忆

其中:

知识 = 数据 + 参数
计算 = 深度 + 注意力计算
工作记忆 = context

这个公式当然很粗糙,但它抓住了三个核心维度:

  1. 模型知道什么
  2. 模型能算多深
  3. 模型能在过程中暂存多少中间状态

13. 关于世界模型:现在到哪一步了

当前 LLM 所表现出的 world model,更可能是:

语言压缩后的统计世界模型

而不是:

精确的、可微分的、物理一致的世界模拟器

换句话说,它更像是:

  • 对世界规律的语言压缩
  • 对常识关系的统计重建
  • 对事件结构的概率性模拟

但随着训练数据从:

text

扩展到:

text + image + audio + video + action

模型的世界表征很可能会变得更强。 届时,“世界模型”可能不再只是语言统计意义上的,而会更接近跨模态预测系统。


14. 综合结论

目前最值得保留的综合判断可以写成一句话:

LLM 可以被理解为:一个运行在高维语义空间中的概率程序系统;当规模、数据与计算复杂度达到阈值后,它会表现出近似世界模型的涌现行为。

这个框架的价值在于,它把三个层面统一了起来:

  • 微观机制:概率程序 / 电路结构
  • 表示基础:高维语义空间 + superposition
  • 宏观行为:世界模型式能力与涌现现象

15. 仍然开放的问题

真正值得继续追问的问题,至少包括以下几类:

  1. 涌现到底有多少是真实现象,有多少是评估伪影?
  2. CoT 在不同任务中,真实计算与事后解释各占多少比例?
  3. neuralese 能否被系统性解码?
  4. superposition 是否是高效表征的必然代价?
  5. scaling laws 是否会在更大规模处出现拐点或失效?
  6. 多模态训练会不会让“世界模型”从统计拟合转向更强的结构建模?

16. 一句话版总结

如果要把整篇压成一句话,那就是:

LLM 的本质,也许不是“会说话的统计模型”,而是“在高维语义空间中运行的概率程序”;而所谓能力涌现,正是这种系统在规模扩展后表现出的宏观相变。


Links: