【AI Research】LLM 本质与能力涌现讨论笔记

0. 核心判断

如果只从 Transformer 的架构细节出发来理解 LLM，往往会错过真正关键的问题。更值得追问的不是：

attention 是怎么实现的
multi-head 有什么工程作用
模型表面上如何生成下一 token

而是：

为什么当规模扩大到一定程度后，模型会表现出此前不存在的能力？

这实际上是在问一个复杂系统问题：

scale → emergent abilities

也即：规模扩张为什么会引发能力涌现（emergence）。

从这个角度看，LLM 的关键价值可能并不在于某个具体架构组件本身，而在于： 大规模参数、大规模数据与大规模计算共同构成了一个可能发生能力跃迁的系统。

1. 为什么“规模有效”不是空话

“规模带来能力”并不只是直觉判断，已经有较强的定量支持。

Kaplan et al. (2020) 提出 scaling laws，发现模型性能与参数量、数据量、计算量之间存在相对稳定的幂律关系。
Hoffmann et al. (2022, Chinchilla) 进一步指出：在固定计算预算下，参数规模和数据规模必须协同扩张，才能达到更优性能。

这意味着：

规模并非“越大越好”的粗暴堆砌；
有效规模化依赖多个变量的配平；
“为什么 scale 有效”至少在经验层面已有坚实基础。

更准确地说，LLM 的发展并不是“单靠参数变大”，而是：

参数规模 × 数据规模 × 训练计算

共同推动了能力边界的扩展。

2. 典型的涌现能力是什么

目前最常被视为涌现现象（emergent phenomena）的能力包括：

In-context learning (ICL)
Chain-of-thought reasoning
Tool use
Planning
Multi-step reasoning
多模态能力

这些能力的共同特点是：它们往往不是被显式手工编入模型的能力模块，而更像是在一定规模条件下自然出现的行为特征。其中，最值得深入理解的也许是 ICL。

2.1 ICL 为什么重要

Akyürek et al. (2022) 提出一个很有启发性的观点：Transformer 在前向传播中，可能实际上在执行某种隐式梯度下降。这意味着 few-shot prompting 不只是“给模型看几个例子让它模仿”，而可能是：

模型在上下文中进行了某种形式的即时学习
这种学习不是参数更新，而是基于激活态的临时适应

如果这个方向成立，那么 ICL 就不只是模式匹配，而是某种更接近“运行时学习算法”的现象。这也会直接支持后文的一个核心假设：LLM 内部可能存在类似程序/算法的隐式结构。

3. Chain-of-thought：真实推理，还是事后解释？

这是理解 LLM 的一个分水岭问题。一个常见但过于简单的说法是：

模型写出来的 CoT 就等于模型真实的内部推理过程。这个判断现在看并不稳妥。

3.1 为什么会怀疑 CoT 是事后解释

一种可能的机制是：

隐藏层完成主要计算 ↓
语言系统把结果“翻译成”可读解释

如果是这样，那么外显 CoT 更像：

post-hoc explanation

而不是：

真实推理轨迹

Turpin et al. (2024) 等工作提供了相关证据：模型输出的推理步骤有时与最终答案并不严格一致，这暗示 CoT 可能包含一定程度的事后合理化。

3.2 为什么又不能完全否定 CoT 的计算作用

另一方面，Lanham et al. (2023) 的结果表明：在某些任务中，截断 CoT 会直接降低模型准确率。这说明中间 token 并不总是装饰性的；在不少任务里，它们确实参与了计算。

3.3 更稳妥的结论

因此，更准确的表述应该是：

CoT 同时包含“真实计算”与“事后解释”两种成分。 而且两者的比例会因任务而异：

对简单模式匹配任务，CoT 更可能偏装饰性；
对复杂多步推理任务，CoT 更可能真实参与计算。

所以，CoT 最值得研究的不是“它是真是假”，而是：

在什么任务上，它更像计算；在什么任务上，它更像解释。

4. 理解 LLM 内部结构的三种主要假设

目前可以用三种互补视角来理解 LLM 内部表示。

4.1 假设 A：语义向量空间（semantic vector space）

在这个视角下，LLM 内部本质上是一个：

高维语义几何空间

而所谓“推理”，可以理解为：

向量在高维空间中的连续变换

支持这个观点的现象包括：

embedding arithmetic
concept directions
activation steering

这个框架的优点是直观、统一，并且与现代表征学习高度一致。但它的问题在于：它更擅长解释“语义相似性”和“连续概念变换”，对算法性行为的解释力有限。

4.2 假设 B：概率程序系统（probabilistic latent programs）

另一个更“机制论”的视角认为，模型内部并不只是几何空间，还存在某些类似程序或算法的隐式结构，例如：

induction heads
copy circuits
bracket matching circuits

在这个框架里，模型更像是在执行：

probabilistic program execution

也就是说：

不是硬编码程序
但出现了带有算法特征的隐式电路
这些结构在统计训练中自发形成

这个视角对解释 ICL、规则匹配、结构复制等现象特别有力。

4.3 假设 C：模糊世界模型（fuzzy world model）

第三种视角认为，LLM 内部维持了一种较模糊的世界状态表示，它并不等价于严格的物理模拟，但包含某种“可用于预测和推断的世界结构”。例如可能涉及：

物体位置关系
因果关联
事件状态变化
常识性场景结构

在这个意义上，模型不是“知道世界”，而是在大规模语言压缩中学会了一个：

语言压缩后的统计世界模型

5. 一个必须补进去的现象：Superposition 与 Polysemanticity

无论采用上面哪种框架，都绕不开一个关键问题：

模型内部表示不是一一对应、清晰可分的。

Anthropic 的 mechanistic interpretability 工作显示：

单个神经元往往是 polysemantic 的，即同时编码多个不相关概念；
模型会通过 superposition，在有限维度中叠加表示远超维度数量的特征。

这件事的重要性在于，它改变了我们对“内部语言”的想象。 LLM 的 latent language 并不是：

一个神经元 = 一个概念

而更像是：

多个概念在高维空间中稀疏叠加
多个维度共同编码同一概念

这也是为什么 interpretability 如此困难：我们看到的不是整齐的“概念表”，而是一个高压缩、高复用、高纠缠的表示系统。 Sparse autoencoders 等方法，本质上就是在试图把这种叠加结构拆开。

6. 一个更合理的综合模型

如果把上述几种视角综合起来，当前最合理的图景也许是：

概率程序结构 ↓
运行在高维语义元语言之中 ↓
在足够复杂时表现出世界模型行为

也可以写成：

latent program (B) ↓
semantic metalanguage (A) ↓
world-model-like behaviour (C)

这意味着：

LLM 内部可能存在算法式电路
这些电路并不是在离散符号层上运行，而是在高维语义空间中运行
当规模与复杂度足够高时，这套系统会表现出某种世界模型式行为

这个综合框架的好处是，它同时解释了：

为什么模型看起来有语义连续性
为什么又会出现算法感很强的行为
为什么高层上会呈现出“像在理解世界”的现象

7. 神经网络的“元语言”：neuralese

如果 LLM 的内部表示不是自然语言，那它更像什么？一个常见说法是：

latent semantic language

也有人称之为：

neuralese

即：神经网络自己的语言系统。

它的特点可能包括：

跨语言共享表示
概念级别编码
可沿语义方向被干预
与自然语言并非同构关系

但结合 superposition 的结果，这个“神经元语言”必须进一步修正：

neuralese 不是一个整齐、可直接翻译的离散词典，而是一个高度压缩、叠加式、分布式的表示系统。

这意味着它在信息论上非常高效，但也意味着它不会轻易被“翻译”成人类可读形式。

8. 数学能力悖论：为什么 LLM 擅长语言，却不擅长数学？

这是理解 LLM 局限性的一个关键窗口。一个直观悖论是：

语言推理 > 数学推理

但数学明明是一个更规则、更形式化的系统。如果 LLM 真的是强大的语义系统，数学理应更容易。

8.1 常见解释

常见原因包括：

数据分布偏差
tokenization 不友好
长链推理困难
算法结构不稳定这些都成立，但还不够深。

8.2 更根本的解释

更核心的张力在于：

连续表示空间 与 离散符号操作 之间存在结构性冲突。

数学要求：

精确符号绑定
严格规则执行
多步组合不出错
中间状态稳定保持

而 LLM 的内部表示天然更偏：

连续
近似
模糊
分布式

所以问题不只是 tokenization，而是架构层面的：

用连续向量运算去模拟离散符号操作，误差会在多步推理中不断积累。

这也解释了为什么 tool use 对数学提升特别大：它相当于把“必须精确”的部分外包给了真正的符号系统。

9. 如何解释“涌现”本身

关于 emergent abilities，目前至少有四类解释：

复杂系统相变（phase transition）
数据覆盖达到阈值
表示容量达到阈值
测量方式造成的错觉

9.1 哪些解释最直观

从直觉上说：

表示容量阈值最容易理解；
相变模型最具有一般性。

可以把两者串起来看：

表示容量达到阈值 ↓
系统进入临界状态 ↓
出现相变式能力变化

9.2 为什么“测量伪影”不能忽视

Schaeffer et al. (2023) 的重要贡献在于提醒我们：

很多“突然涌现”可能只是非线性评估指标制造出的视觉错觉。

如果把指标从 exact match accuracy 换成 token-level log-likelihood，不少看起来像跳变的曲线会变得平滑。所以更谨慎的表述应当是：

涌现 ≠ 能力突然从无到有
涌现 ≈ 能力平滑增长 + 非线性指标放大“突变感”

因此最稳妥的立场不是“涌现全真”或“涌现全假”，而是：

能力增长是真实的；“突然性”则可能部分来自测量方法。

10. 控制能力涌现的关键变量

可能触发能力变化的主要变量包括：

参数规模
数据质量与多样性
context length
模型深度

可以进一步分成三类：

类型	变量	作用
信息输入	数据质量、数据多样性	决定模型学到什么
表示容量	参数规模	决定模型能表示什么
计算结构	深度、context length	决定模型能做多复杂的运算

但这些变量并不是彼此独立的。Chinchilla 的关键结论之一正是：

参数与数据必须协同扩张。 单独堆大参数、却不给足数据，收益会显著递减。

11. Context length：为什么它像“工作记忆”甚至“图灵机纸带”

context 的意义远不止“能塞更多字”。它本质上承担了模型的外部工作记忆功能：

存放中间推理结果
承载 chain-of-thought
支持 in-context learning
帮助模型分阶段展开复杂问题

所以 context 可以被理解为：

working memory

更进一步，它甚至有点像：

图灵机的 tape

从这个角度看，CoT 之所以有效，不只是“解释更详细了”，而是：

模型借助外部上下文，把原本隐含的一步计算拆成了多步显式计算。 这等价于提高了模型的有效计算深度。

12. 一个简化的能力公式

如果要用一个极简公式总结 LLM 的能力来源，可以写成：

能力 ≈ 知识 × 计算 × 工作记忆

其中：

知识 = 数据 + 参数
计算 = 深度 + 注意力计算
工作记忆 = context

这个公式当然很粗糙，但它抓住了三个核心维度：

模型知道什么
模型能算多深
模型能在过程中暂存多少中间状态

13. 关于世界模型：现在到哪一步了

当前 LLM 所表现出的 world model，更可能是：

语言压缩后的统计世界模型

而不是：

精确的、可微分的、物理一致的世界模拟器

换句话说，它更像是：

对世界规律的语言压缩
对常识关系的统计重建
对事件结构的概率性模拟

但随着训练数据从：

text

扩展到：

text + image + audio + video + action

模型的世界表征很可能会变得更强。届时，“世界模型”可能不再只是语言统计意义上的，而会更接近跨模态预测系统。

14. 综合结论

目前最值得保留的综合判断可以写成一句话：

LLM 可以被理解为：一个运行在高维语义空间中的概率程序系统；当规模、数据与计算复杂度达到阈值后，它会表现出近似世界模型的涌现行为。

这个框架的价值在于，它把三个层面统一了起来：

微观机制：概率程序 / 电路结构
表示基础：高维语义空间 + superposition
宏观行为：世界模型式能力与涌现现象

15. 仍然开放的问题

真正值得继续追问的问题，至少包括以下几类：

涌现到底有多少是真实现象，有多少是评估伪影？
CoT 在不同任务中，真实计算与事后解释各占多少比例？
neuralese 能否被系统性解码？
superposition 是否是高效表征的必然代价？
scaling laws 是否会在更大规模处出现拐点或失效？
多模态训练会不会让“世界模型”从统计拟合转向更强的结构建模？

16. 一句话版总结

如果要把整篇压成一句话，那就是：

LLM 的本质，也许不是“会说话的统计模型”，而是“在高维语义空间中运行的概率程序”；而所谓能力涌现，正是这种系统在规模扩展后表现出的宏观相变。

Links:

Lemon Blog

探索