← cd ../posts

三大流派世仇:符号主义、联结主义、统计学习

2026-05-23

AI 系列第 2 篇。上一篇我们用一条 80 年的时间线把 AI 串了起来。 这一篇钻进时间线背后——那场打了三十年还没真正分胜负的流派内战。 至于上一篇结尾留的"反向传播为什么等了 25 年",再忍一篇,下一篇专门讲。

0. 先把今天要打的"派"列出来

如果你只学过"AI 就是深度学习",那你看到的是 2012 年之后的快照。把镜头拉远一点,你会看到三派人:

        ┌──────────────────────────────────────────────────┐
        │  Symbolic        Connectionist     Statistical   │
        │  符号主义         联结主义           统计学习       │
        │  "教它规则"       "让它自己长出来"    "数据说话"     │
        └──────────────────────────────────────────────────┘
                              │
                              ▼
                  今天的 LLM 是这三派的私生子

这三派在过去 70 年里轮流坐庄、互相鄙视、互相打脸。每一次主流切换,都伴随着大量的论文、经费、研究者改行——以及一两个"圈外人完全没注意到"的转折点。

把这三派搞清楚,你以后看任何 AI 论文都不容易被术语带跑。


1. 符号主义:1956 年那批人坚信的世界观

核心信条:智能 = 操纵符号 + 逻辑推理。

这是 AI 圈的"老贵族派"。它的起点就是上一篇提到的 1956 达特茅斯会议。McCarthy、Minsky、Newell、Simon——这群人都坚信一件事:

人类思考的本质是符号操作。所以只要能把世界用符号表达清楚,再把推理规则写下来,机器就能"思考"。

听起来玄,举个例子你就懂:

苏格拉底是人。      → 符号: human(socrates)
所有人都会死。      → 规则: ∀x. human(x) → mortal(x)
推理结论:          → mortal(socrates)

这套思路在 60 年代极有市场。原因不是它对——而是它像人。哲学家几千年都在搞这套,AI 圈刚起步,很自然地从这条路开始。

高光:从 GPS 到 SHRDLU

  • 1957 年 —— Newell 和 Simon 搞了个叫 GPS(General Problem Solver) 的系统,号称能解决"任何能用符号表达的问题"。一时震动。
  • 1970 年 —— Terry Winograd 写出 SHRDLU:一个能在虚拟积木世界里对话的程序,能听懂"把红方块放到蓝盒子上"这种命令,还能回答"为什么你刚才把那个方块放回去了"。
  • 1980 年 —— 专家系统(expert system)大规模商业化。MYCIN 诊断感染病、PROSPECTOR 找矿、XCON 给 DEC 配电脑。日本砸 8.5 亿美元搞「第五代计算机」也是这条路。

那一阵子全世界都觉得:这就是 AI 的正道。Hinton 那种搞神经网络的,被嘲是"在调一个永远调不好的黑盒"。

崩塌:你写不下你怎么认出妈妈的脸

但 80 年代末,符号主义撞墙了。撞的不是技术墙,是墙。

写专家系统需要两类人:领域专家 + 知识工程师。前者负责"把脑子里的规则讲出来",后者负责"翻译成 if-then"。这一翻译,就发现一个尴尬事实——

人类专家自己都没法把自己的判断完整地写下来。

$ ask doctor "你怎么判断这个病人是不是细菌感染?"
> 嗯…就是看着像。

$ ask doctor "看着像是什么意思?"
> 就…经验吧。发烧、面色、听音…
> 还有一种感觉,说不清楚。

这就是哲学家 Michael Polanyi 早在 1966 年就总结过的——默会知识(tacit knowledge):我们知道的远比我们能说出来的多。

一旦规则写不全,专家系统就开始胡说八道。MYCIN 在标准病例上准确率超过医生,但碰到一个稍微古怪的病例就崩——因为它不会"举一反三",它只会"查规则"。

1987 年 —— 第二次 AI 寒冬来了。专家系统公司大批倒闭,"AI" 这个词被科研圈嫌弃,找工作的人都改写"决策支持系统" / "智能数据库"。

符号主义没死。它退到了更小的角落——知识图谱、Prolog 教学、定理证明器。今天 Google 搜索框里"周杰伦的妻子是谁"那种结构化答案,背后还能看到符号主义的影子。


2. 联结主义:被嘲笑了三十年,再杀回来

核心信条:智能 = 大量神经元的连接。别教它规则,让它自己长出来。

这派的祖宗是 1943 年那篇 McCulloch–Pitts 论文(上一篇讲过)。他们坚信另一套世界观:

你不需要先理解智能是什么,再去造它。 你只需要造一个长得像大脑的东西,让它自己变聪明。

听起来很玄。但你想想——人类生小孩的时候,也没人给小孩写过 if-then 规则。小孩就是看、听、模仿,自己长出来。

第一次高光与第一次惨败:1958 → 1969

  • 1958 年 —— Frank Rosenblatt 在康奈尔搞出感知机(Perceptron):第一台能学习的机器。媒体疯了:《纽约时报》写"美国海军将造出一台能走路、说话、看见、写字的电子大脑"。
  • 1969 年 —— Marvin Minsky(注意,他是符号派旗手)和 Papert 出了那本臭名昭著的 Perceptrons,数学证明:单层感知机连"异或"都解不了。

这本书一脚把联结主义踹进 ICU。后面 17 年神经网络几乎发不出论文,Hinton 当时还是博士生,导师劝他换方向。他拒绝了。

1986:火种

  • 1986 年 —— Rumelhart / Hinton / Williams 三人组发表反向传播算法,理论上让多层网络可训练。
  • 1989 年 —— Yann LeCun 用卷积神经网络识别手写邮政编码,部署到美国邮局——这是神经网络第一次商业落地

但这股火很快被泼了水。原因有三:

  1. 算力不够:1990 年代的 CPU 跑一个多层网络要好几天。
  2. 数据不够:互联网还没普及,标注数据集小到可怜。
  3. 理论上打不过 SVM:90 年代统计学习派的 SVM(下一节细讲)在小数据集上稳赢神经网络。

整个 90 年代到 00 年代初,神经网络是 AI 圈最被嘲笑的一支。Hinton 后来回忆:"我们就是一小撮异类。"

2006 → 2012:复活,再封神

  • 2006 年 —— Hinton 提出 Deep Belief Networks,重新引入"deep learning"这个词。一开始没人在意。
  • 2009 年 —— 李飞飞团队的 ImageNet 数据集出现,1400 万张标注图片。这是联结主义复活的弹药库
  • 2012 年 9 月 30 日 —— AlexNet 在 ImageNet 上把错误率从 26% 砍到 15%。圈内地震。

从那一刻起,联结主义 == 主流 AI

一句你可以拿去吹的话: 联结主义被嘲了 26 年,然后用 5 年统治了整个 AI 行业。它的胜利不是"思想胜利",是"时机胜利"——算力、数据、一篇论文,三件套同时到位。


3. 统计学习:把 AI 拆成"一个最优化问题"

核心信条:智能 = 在数据里找概率分布。别讲故事,让数学说话。

这派起源最晚(80 年代中后期),但杀伤力最大。它的代表人物不是来自 AI 圈,是来自统计学界俄罗斯数学派

主要旗手:Vladimir Vapnik(SVM 之父)、Leo Breiman(随机森林)、Judea Pearl(贝叶斯网络)。这群人看 AI 的眼神都是"你们这帮人搞了三十年还没搞清楚什么叫'学习'?我来给你们讲讲什么叫统计估计。"

高光:1990s 到 2010s 的"中庸时代"

SVM        ────▶ 文本分类、图像识别 SOTA(1995 → 2012)
随机森林    ────▶ 工业级表格数据预测,从信用评分到 Kaggle
贝叶斯网    ────▶ 医学诊断、推荐系统
HMM        ────▶ 语音识别(Google / Siri 早期)
LDA        ────▶ 主题模型(看似没死,其实退化成 LLM 的脚注)

这派的优势是理论扎实——你可以证明你的模型在多少样本下能达到多少误差,可以画出收敛曲线,可以解释"为什么"。

那一时期 ML 课程的标配是"SVM → 随机森林 → boosting → 贝叶斯"。神经网络只是最后一章的"特殊话题",老师还要叮嘱一句"这玩意一般不好使,慎用"。

它没"输",它"被吸收"

2012 之后,统计学习派整体被冷落了——但它没死。它做了一件事:钻进联结主义的骨架里

今天的深度学习有大量统计学习的语言:

  • 损失函数(交叉熵、负对数似然)——统计学的最大似然估计。
  • 正则化(L1/L2、dropout)——统计学的过拟合控制。
  • 评估方法(K-fold、AUC、PR 曲线)——统计学的标准工具。
  • Scaling laws(GPT 系的关键发现)——本质是统计幂律拟合。

Hinton 自己说过:"深度学习的胜利,是统计学习派给我们装的子弹。"

所以你今天看到深度学习里 70% 的术语,是统计学习派遗产。这派没赢"AI 圣杯",但赢了"工程语言"。


4. 1956 → 今天:三派轮流坐庄的真实时间线

把三派的兴衰画成一张表,会比时间线更清楚:

年代 主流派 标志事件 寒冬触发
1956–1969 符号主义 达特茅斯会议、SHRDLU Perceptrons 一书
1970s 全行业冷淡 第一次 AI 寒冬 DARPA 撤资
1980s 符号主义复活 专家系统商业化 知识获取瓶颈
1987–1993 全行业冷淡 第二次 AI 寒冬 日本五代机失败
1995–2011 统计学习 SVM、随机森林、Kaggle 没寒冬,但被深度学习超越
2012–2017 联结主义(CV 阶段) AlexNet、ResNet、AlphaGo ——
2017–今天 联结主义 + 统计学习(LLM 阶段) Transformer、GPT、Claude ——

注意几件事:

  1. 每一次主流切换,"上一派"都没死,只是退到角落。今天你还能在 SQL 优化器里看到符号主义,在 Kaggle 比赛里看到统计学习,在 GPT 里看到联结主义。
  2. 寒冬都不是技术问题,是预期管理问题。每一次都是先吹得太大、后落地太慢。
  3. **没有任何一派"赢到底"。**今天的 LLM 看似是联结主义的胜利,但它的损失函数是统计学习的、它输出的"思维链"是符号主义的。

5. 今天的 LLM:一只三派 DNA 都有的怪物

来仔细拆一下 ChatGPT / Claude 是怎么"杂交"的:

联结主义打地基

模型架构是 Transformer——本质是一个超大号神经网络。1750 亿参数中的每一个数,都是反向传播一步步训出来的。没有联结主义,连"参数"这个概念都不成立。

统计学习当骨架

训练目标是"下一个 token 的最大似然估计"。每一步训练都在做:

loss = -log P(next_token | context)

这就是统计学习里教科书第一章的内容。LLM 不是在"思考",它是在做一个超大规模的条件概率估计

符号主义在表层伪装

但你跟 GPT 聊天时,它会一步一步推理:"首先… 然后… 因此…"。这看起来像符号主义,对吧?

真相是:模型并不真的在做符号推理。它只是在生成"长得像推理过程"的 token 序列。但—— 这种伪装本身就是有用的。

  • 思维链(Chain of Thought):让模型先输出"推理过程",再给答案。准确率显著提升。
  • 结构化输出(structured output):强制模型输出 JSON / 表格。本质是用符号格式约束概率分布。
  • Tool use:让模型调用外部函数(计算器、搜索)。一旦遇到精确符号操作,就交给外部工具——承认神经网络不擅长这个。

所以 LLM 是一只很奇怪的怪物:

联结主义的身体  ◀──  统计学习的语言  ◀──  符号主义的外衣
   (神经网络)        (最大似然)        (推理形式)

每一层都来自不同的派系。每一派都"输了",但每一派都活在 LLM 体内。

一句你可以拿去吹的话: AI 的三十年内战没有赢家。最终是大模型这个怪物,把三派都吸了进去——身体是联结主义的,骨架是统计学习的,皮肤是符号主义的。


6. 三派思维方式的影响:你应该挑哪派?

抛开学术,实际工程里这三派思维仍然有用:

数据多、特征杂、追求 SOTA → 联结主义

  • 训神经网络,调架构,烧 GPU。
  • 适合:NLP、CV、推荐、Agent。
  • 代价:黑盒,调试靠玄学,算力贵。

数据少、需要可解释、要符合监管 → 统计学习

  • 线性回归、随机森林、贝叶斯。
  • 适合:金融风控、医疗诊断、A/B 实验。
  • 代价:表达能力有限,复杂模式抓不住。

规则可枚举、错一次代价大 → 符号主义

  • 编译器、税法计算、安全审计。
  • 适合:硬约束逻辑、可形式化的领域。
  • 代价:维护成本高,规则爆炸快。

实际项目里你可能三派混用。比如做一个客服系统:

用户问题 ──▶ LLM 理解意图(联结主义)
         ──▶ 检索知识库 + 排序(统计学习)
         ──▶ 调用业务规则做最后裁决(符号主义)

这就是为什么"全栈 AI 工程师"现在越来越需要三派的语言都懂一点。


7. 给你的小作业

  1. 挑一个你最近用过的 AI 产品(搜索、推荐、ChatGPT、自动驾驶),拆出它里面三派的成分各占多少。
  2. 找一个 80 年代的专家系统案例(MYCIN、XCON),思考一下:如果你今天用 LLM 重做它,会有什么不一样?
  3. 想一个场景,你不会用神经网络——给出三条理由。(提示:可解释性、数据量、监管)

写不出来不要紧。带着这三个问题去读下一篇。

下一篇钩子:1986 年那篇被冷落了 25 年的反向传播论文,到底说了什么? 为什么它"理论上对"了 25 年,工程上才"对"? 我们将用"下山找最低点"的比喻,把神经网络是怎么"学"的讲清楚—— 你会发现,所谓深度学习,本质就是在一座非常陡的高维大山上,用一个微小的手电筒摸黑下山