0. 核心判断
如果只从 Transformer 的架构细节出发来理解 LLM,往往会错过真正关键的问题。 更值得追问的不是:
- attention 是怎么实现的
- multi-head 有什么工程作用
- 模型表面上如何生成下一 token
而是:
为什么当规模扩大到一定程度后,模型会表现出此前不存在的能力?
这实际上是在问一个复杂系统问题:
scale → emergent abilities也即:规模扩张为什么会引发能力涌现(emergence)。
从这个角度看,LLM 的关键价值可能并不在于某个具体架构组件本身,而在于: 大规模参数、大规模数据与大规模计算共同构成了一个可能发生能力跃迁的系统。
1. 为什么“规模有效”不是空话
“规模带来能力”并不只是直觉判断,已经有较强的定量支持。
- Kaplan et al. (2020) 提出 scaling laws,发现模型性能与参数量、数据量、计算量之间存在相对稳定的幂律关系。
- Hoffmann et al. (2022, Chinchilla) 进一步指出:在固定计算预算下,参数规模和数据规模必须协同扩张,才能达到更优性能。
这意味着:
- 规模并非“越大越好”的粗暴堆砌;
- 有效规模化依赖多个变量的配平;
- “为什么 scale 有效”至少在经验层面已有坚实基础。
更准确地说,LLM 的发展并不是“单靠参数变大”,而是:
参数规模 × 数据规模 × 训练计算共同推动了能力边界的扩展。
2. 典型的涌现能力是什么
目前最常被视为涌现现象(emergent phenomena)的能力包括:
- In-context learning (ICL)
- Chain-of-thought reasoning
- Tool use
- Planning
- Multi-step reasoning
- 多模态能力
这些能力的共同特点是:它们往往不是被显式手工编入模型的能力模块,而更像是在一定规模条件下自然出现的行为特征。 其中,最值得深入理解的也许是 ICL。
2.1 ICL 为什么重要
Akyürek et al. (2022) 提出一个很有启发性的观点:Transformer 在前向传播中,可能实际上在执行某种隐式梯度下降。 这意味着 few-shot prompting 不只是“给模型看几个例子让它模仿”,而可能是:
- 模型在上下文中进行了某种形式的即时学习
- 这种学习不是参数更新,而是基于激活态的临时适应
如果这个方向成立,那么 ICL 就不只是模式匹配,而是某种更接近“运行时学习算法”的现象。 这也会直接支持后文的一个核心假设:LLM 内部可能存在类似程序/算法的隐式结构。
3. Chain-of-thought:真实推理,还是事后解释?
这是理解 LLM 的一个分水岭问题。 一个常见但过于简单的说法是:
模型写出来的 CoT 就等于模型真实的内部推理过程。 这个判断现在看并不稳妥。
3.1 为什么会怀疑 CoT 是事后解释
一种可能的机制是:
隐藏层完成主要计算 ↓
语言系统把结果“翻译成”可读解释如果是这样,那么外显 CoT 更像:
post-hoc explanation而不是:
真实推理轨迹Turpin et al. (2024) 等工作提供了相关证据:模型输出的推理步骤有时与最终答案并不严格一致,这暗示 CoT 可能包含一定程度的事后合理化。
3.2 为什么又不能完全否定 CoT 的计算作用
另一方面,Lanham et al. (2023) 的结果表明:在某些任务中,截断 CoT 会直接降低模型准确率。 这说明中间 token 并不总是装饰性的;在不少任务里,它们确实参与了计算。
3.3 更稳妥的结论
因此,更准确的表述应该是:
CoT 同时包含“真实计算”与“事后解释”两种成分。 而且两者的比例会因任务而异:
- 对简单模式匹配任务,CoT 更可能偏装饰性;
- 对复杂多步推理任务,CoT 更可能真实参与计算。
所以,CoT 最值得研究的不是“它是真是假”,而是:
在什么任务上,它更像计算;在什么任务上,它更像解释。
4. 理解 LLM 内部结构的三种主要假设
目前可以用三种互补视角来理解 LLM 内部表示。
4.1 假设 A:语义向量空间(semantic vector space)
在这个视角下,LLM 内部本质上是一个:
高维语义几何空间而所谓“推理”,可以理解为:
向量在高维空间中的连续变换支持这个观点的现象包括:
- embedding arithmetic
- concept directions
- activation steering
这个框架的优点是直观、统一,并且与现代表征学习高度一致。 但它的问题在于:它更擅长解释“语义相似性”和“连续概念变换”,对算法性行为的解释力有限。
4.2 假设 B:概率程序系统(probabilistic latent programs)
另一个更“机制论”的视角认为,模型内部并不只是几何空间,还存在某些类似程序或算法的隐式结构,例如:
- induction heads
- copy circuits
- bracket matching circuits
在这个框架里,模型更像是在执行:
probabilistic program execution也就是说:
- 不是硬编码程序
- 但出现了带有算法特征的隐式电路
- 这些结构在统计训练中自发形成
这个视角对解释 ICL、规则匹配、结构复制等现象特别有力。
4.3 假设 C:模糊世界模型(fuzzy world model)
第三种视角认为,LLM 内部维持了一种较模糊的世界状态表示,它并不等价于严格的物理模拟,但包含某种“可用于预测和推断的世界结构”。 例如可能涉及:
- 物体位置关系
- 因果关联
- 事件状态变化
- 常识性场景结构
在这个意义上,模型不是“知道世界”,而是在大规模语言压缩中学会了一个:
语言压缩后的统计世界模型5. 一个必须补进去的现象:Superposition 与 Polysemanticity
无论采用上面哪种框架,都绕不开一个关键问题:
模型内部表示不是一一对应、清晰可分的。
Anthropic 的 mechanistic interpretability 工作显示:
- 单个神经元往往是 polysemantic 的,即同时编码多个不相关概念;
- 模型会通过 superposition,在有限维度中叠加表示远超维度数量的特征。
这件事的重要性在于,它改变了我们对“内部语言”的想象。 LLM 的 latent language 并不是:
一个神经元 = 一个概念而更像是:
多个概念在高维空间中稀疏叠加
多个维度共同编码同一概念这也是为什么 interpretability 如此困难:我们看到的不是整齐的“概念表”,而是一个高压缩、高复用、高纠缠的表示系统。 Sparse autoencoders 等方法,本质上就是在试图把这种叠加结构拆开。
6. 一个更合理的综合模型
如果把上述几种视角综合起来,当前最合理的图景也许是:
概率程序结构 ↓
运行在高维语义元语言之中 ↓
在足够复杂时表现出世界模型行为也可以写成:
latent program (B) ↓
semantic metalanguage (A) ↓
world-model-like behaviour (C)这意味着:
- LLM 内部可能存在算法式电路
- 这些电路并不是在离散符号层上运行,而是在高维语义空间中运行
- 当规模与复杂度足够高时,这套系统会表现出某种世界模型式行为
这个综合框架的好处是,它同时解释了:
- 为什么模型看起来有语义连续性
- 为什么又会出现算法感很强的行为
- 为什么高层上会呈现出“像在理解世界”的现象
7. 神经网络的“元语言”:neuralese
如果 LLM 的内部表示不是自然语言,那它更像什么? 一个常见说法是:
latent semantic language也有人称之为:
neuralese即:神经网络自己的语言系统。
它的特点可能包括:
- 跨语言共享表示
- 概念级别编码
- 可沿语义方向被干预
- 与自然语言并非同构关系
但结合 superposition 的结果,这个“神经元语言”必须进一步修正:
neuralese 不是一个整齐、可直接翻译的离散词典, 而是一个高度压缩、叠加式、分布式的表示系统。
这意味着它在信息论上非常高效,但也意味着它不会轻易被“翻译”成人类可读形式。
8. 数学能力悖论:为什么 LLM 擅长语言,却不擅长数学?
这是理解 LLM 局限性的一个关键窗口。 一个直观悖论是:
语言推理 > 数学推理但数学明明是一个更规则、更形式化的系统。如果 LLM 真的是强大的语义系统,数学理应更容易。
8.1 常见解释
常见原因包括:
- 数据分布偏差
- tokenization 不友好
- 长链推理困难
- 算法结构不稳定 这些都成立,但还不够深。
8.2 更根本的解释
更核心的张力在于:
连续表示空间 与 离散符号操作 之间存在结构性冲突。
数学要求:
- 精确符号绑定
- 严格规则执行
- 多步组合不出错
- 中间状态稳定保持
而 LLM 的内部表示天然更偏:
- 连续
- 近似
- 模糊
- 分布式
所以问题不只是 tokenization,而是架构层面的:
用连续向量运算去模拟离散符号操作,误差会在多步推理中不断积累。
这也解释了为什么 tool use 对数学提升特别大:它相当于把“必须精确”的部分外包给了真正的符号系统。
9. 如何解释“涌现”本身
关于 emergent abilities,目前至少有四类解释:
- 复杂系统相变(phase transition)
- 数据覆盖达到阈值
- 表示容量达到阈值
- 测量方式造成的错觉
9.1 哪些解释最直观
从直觉上说:
- 表示容量阈值最容易理解;
- 相变模型最具有一般性。
可以把两者串起来看:
表示容量达到阈值 ↓
系统进入临界状态 ↓
出现相变式能力变化9.2 为什么“测量伪影”不能忽视
Schaeffer et al. (2023) 的重要贡献在于提醒我们:
很多“突然涌现”可能只是非线性评估指标制造出的视觉错觉。
如果把指标从 exact match accuracy 换成 token-level log-likelihood,不少看起来像跳变的曲线会变得平滑。 所以更谨慎的表述应当是:
涌现 ≠ 能力突然从无到有
涌现 ≈ 能力平滑增长 + 非线性指标放大“突变感”因此最稳妥的立场不是“涌现全真”或“涌现全假”,而是:
能力增长是真实的;“突然性”则可能部分来自测量方法。
10. 控制能力涌现的关键变量
可能触发能力变化的主要变量包括:
- 参数规模
- 数据质量与多样性
- context length
- 模型深度
可以进一步分成三类:
| 类型 | 变量 | 作用 |
|---|---|---|
| 信息输入 | 数据质量、数据多样性 | 决定模型学到什么 |
| 表示容量 | 参数规模 | 决定模型能表示什么 |
| 计算结构 | 深度、context length | 决定模型能做多复杂的运算 |
但这些变量并不是彼此独立的。Chinchilla 的关键结论之一正是:
参数与数据必须协同扩张。 单独堆大参数、却不给足数据,收益会显著递减。
11. Context length:为什么它像“工作记忆”甚至“图灵机纸带”
context 的意义远不止“能塞更多字”。 它本质上承担了模型的外部工作记忆功能:
- 存放中间推理结果
- 承载 chain-of-thought
- 支持 in-context learning
- 帮助模型分阶段展开复杂问题
所以 context 可以被理解为:
working memory更进一步,它甚至有点像:
图灵机的 tape从这个角度看,CoT 之所以有效,不只是“解释更详细了”,而是:
模型借助外部上下文,把原本隐含的一步计算拆成了多步显式计算。 这等价于提高了模型的有效计算深度。
12. 一个简化的能力公式
如果要用一个极简公式总结 LLM 的能力来源,可以写成:
能力 ≈ 知识 × 计算 × 工作记忆其中:
知识 = 数据 + 参数
计算 = 深度 + 注意力计算
工作记忆 = context这个公式当然很粗糙,但它抓住了三个核心维度:
- 模型知道什么
- 模型能算多深
- 模型能在过程中暂存多少中间状态
13. 关于世界模型:现在到哪一步了
当前 LLM 所表现出的 world model,更可能是:
语言压缩后的统计世界模型而不是:
精确的、可微分的、物理一致的世界模拟器换句话说,它更像是:
- 对世界规律的语言压缩
- 对常识关系的统计重建
- 对事件结构的概率性模拟
但随着训练数据从:
text扩展到:
text + image + audio + video + action模型的世界表征很可能会变得更强。 届时,“世界模型”可能不再只是语言统计意义上的,而会更接近跨模态预测系统。
14. 综合结论
目前最值得保留的综合判断可以写成一句话:
LLM 可以被理解为:一个运行在高维语义空间中的概率程序系统;当规模、数据与计算复杂度达到阈值后,它会表现出近似世界模型的涌现行为。
这个框架的价值在于,它把三个层面统一了起来:
- 微观机制:概率程序 / 电路结构
- 表示基础:高维语义空间 + superposition
- 宏观行为:世界模型式能力与涌现现象
15. 仍然开放的问题
真正值得继续追问的问题,至少包括以下几类:
- 涌现到底有多少是真实现象,有多少是评估伪影?
- CoT 在不同任务中,真实计算与事后解释各占多少比例?
- neuralese 能否被系统性解码?
- superposition 是否是高效表征的必然代价?
- scaling laws 是否会在更大规模处出现拐点或失效?
- 多模态训练会不会让“世界模型”从统计拟合转向更强的结构建模?
16. 一句话版总结
如果要把整篇压成一句话,那就是:
LLM 的本质,也许不是“会说话的统计模型”,而是“在高维语义空间中运行的概率程序”;而所谓能力涌现,正是这种系统在规模扩展后表现出的宏观相变。
Links: