三大流派世仇:符号主义、联结主义、统计学习
AI 系列第 2 篇。上一篇我们用一条 80 年的时间线把 AI 串了起来。 这一篇钻进时间线背后——那场打了三十年还没真正分胜负的流派内战。 至于上一篇结尾留的"反向传播为什么等了 25 年",再忍一篇,下一篇专门讲。
0. 先把今天要打的"派"列出来
如果你只学过"AI 就是深度学习",那你看到的是 2012 年之后的快照。把镜头拉远一点,你会看到三派人:
┌──────────────────────────────────────────────────┐
│ Symbolic Connectionist Statistical │
│ 符号主义 联结主义 统计学习 │
│ "教它规则" "让它自己长出来" "数据说话" │
└──────────────────────────────────────────────────┘
│
▼
今天的 LLM 是这三派的私生子
这三派在过去 70 年里轮流坐庄、互相鄙视、互相打脸。每一次主流切换,都伴随着大量的论文、经费、研究者改行——以及一两个"圈外人完全没注意到"的转折点。
把这三派搞清楚,你以后看任何 AI 论文都不容易被术语带跑。
1. 符号主义:1956 年那批人坚信的世界观
核心信条:智能 = 操纵符号 + 逻辑推理。
这是 AI 圈的"老贵族派"。它的起点就是上一篇提到的 1956 达特茅斯会议。McCarthy、Minsky、Newell、Simon——这群人都坚信一件事:
人类思考的本质是符号操作。所以只要能把世界用符号表达清楚,再把推理规则写下来,机器就能"思考"。
听起来玄,举个例子你就懂:
苏格拉底是人。 → 符号: human(socrates)
所有人都会死。 → 规则: ∀x. human(x) → mortal(x)
推理结论: → mortal(socrates)
这套思路在 60 年代极有市场。原因不是它对——而是它像人。哲学家几千年都在搞这套,AI 圈刚起步,很自然地从这条路开始。
高光:从 GPS 到 SHRDLU
- 1957 年 —— Newell 和 Simon 搞了个叫 GPS(General Problem Solver) 的系统,号称能解决"任何能用符号表达的问题"。一时震动。
- 1970 年 —— Terry Winograd 写出 SHRDLU:一个能在虚拟积木世界里对话的程序,能听懂"把红方块放到蓝盒子上"这种命令,还能回答"为什么你刚才把那个方块放回去了"。
- 1980 年 —— 专家系统(expert system)大规模商业化。MYCIN 诊断感染病、PROSPECTOR 找矿、XCON 给 DEC 配电脑。日本砸 8.5 亿美元搞「第五代计算机」也是这条路。
那一阵子全世界都觉得:这就是 AI 的正道。Hinton 那种搞神经网络的,被嘲是"在调一个永远调不好的黑盒"。
崩塌:你写不下你怎么认出妈妈的脸
但 80 年代末,符号主义撞墙了。撞的不是技术墙,是人墙。
写专家系统需要两类人:领域专家 + 知识工程师。前者负责"把脑子里的规则讲出来",后者负责"翻译成 if-then"。这一翻译,就发现一个尴尬事实——
人类专家自己都没法把自己的判断完整地写下来。
$ ask doctor "你怎么判断这个病人是不是细菌感染?"
> 嗯…就是看着像。
$ ask doctor "看着像是什么意思?"
> 就…经验吧。发烧、面色、听音…
> 还有一种感觉,说不清楚。
这就是哲学家 Michael Polanyi 早在 1966 年就总结过的——默会知识(tacit knowledge):我们知道的远比我们能说出来的多。
一旦规则写不全,专家系统就开始胡说八道。MYCIN 在标准病例上准确率超过医生,但碰到一个稍微古怪的病例就崩——因为它不会"举一反三",它只会"查规则"。
1987 年 —— 第二次 AI 寒冬来了。专家系统公司大批倒闭,"AI" 这个词被科研圈嫌弃,找工作的人都改写"决策支持系统" / "智能数据库"。
符号主义没死。它退到了更小的角落——知识图谱、Prolog 教学、定理证明器。今天 Google 搜索框里"周杰伦的妻子是谁"那种结构化答案,背后还能看到符号主义的影子。
2. 联结主义:被嘲笑了三十年,再杀回来
核心信条:智能 = 大量神经元的连接。别教它规则,让它自己长出来。
这派的祖宗是 1943 年那篇 McCulloch–Pitts 论文(上一篇讲过)。他们坚信另一套世界观:
你不需要先理解智能是什么,再去造它。 你只需要造一个长得像大脑的东西,让它自己变聪明。
听起来很玄。但你想想——人类生小孩的时候,也没人给小孩写过 if-then 规则。小孩就是看、听、模仿,自己长出来。
第一次高光与第一次惨败:1958 → 1969
- 1958 年 —— Frank Rosenblatt 在康奈尔搞出感知机(Perceptron):第一台能学习的机器。媒体疯了:《纽约时报》写"美国海军将造出一台能走路、说话、看见、写字的电子大脑"。
- 1969 年 —— Marvin Minsky(注意,他是符号派旗手)和 Papert 出了那本臭名昭著的 Perceptrons,数学证明:单层感知机连"异或"都解不了。
这本书一脚把联结主义踹进 ICU。后面 17 年神经网络几乎发不出论文,Hinton 当时还是博士生,导师劝他换方向。他拒绝了。
1986:火种
- 1986 年 —— Rumelhart / Hinton / Williams 三人组发表反向传播算法,理论上让多层网络可训练。
- 1989 年 —— Yann LeCun 用卷积神经网络识别手写邮政编码,部署到美国邮局——这是神经网络第一次商业落地。
但这股火很快被泼了水。原因有三:
- 算力不够:1990 年代的 CPU 跑一个多层网络要好几天。
- 数据不够:互联网还没普及,标注数据集小到可怜。
- 理论上打不过 SVM:90 年代统计学习派的 SVM(下一节细讲)在小数据集上稳赢神经网络。
整个 90 年代到 00 年代初,神经网络是 AI 圈最被嘲笑的一支。Hinton 后来回忆:"我们就是一小撮异类。"
2006 → 2012:复活,再封神
- 2006 年 —— Hinton 提出 Deep Belief Networks,重新引入"deep learning"这个词。一开始没人在意。
- 2009 年 —— 李飞飞团队的 ImageNet 数据集出现,1400 万张标注图片。这是联结主义复活的弹药库。
- 2012 年 9 月 30 日 —— AlexNet 在 ImageNet 上把错误率从 26% 砍到 15%。圈内地震。
从那一刻起,联结主义 == 主流 AI。
一句你可以拿去吹的话: 联结主义被嘲了 26 年,然后用 5 年统治了整个 AI 行业。它的胜利不是"思想胜利",是"时机胜利"——算力、数据、一篇论文,三件套同时到位。
3. 统计学习:把 AI 拆成"一个最优化问题"
核心信条:智能 = 在数据里找概率分布。别讲故事,让数学说话。
这派起源最晚(80 年代中后期),但杀伤力最大。它的代表人物不是来自 AI 圈,是来自统计学界和俄罗斯数学派。
主要旗手:Vladimir Vapnik(SVM 之父)、Leo Breiman(随机森林)、Judea Pearl(贝叶斯网络)。这群人看 AI 的眼神都是"你们这帮人搞了三十年还没搞清楚什么叫'学习'?我来给你们讲讲什么叫统计估计。"
高光:1990s 到 2010s 的"中庸时代"
SVM ────▶ 文本分类、图像识别 SOTA(1995 → 2012)
随机森林 ────▶ 工业级表格数据预测,从信用评分到 Kaggle
贝叶斯网 ────▶ 医学诊断、推荐系统
HMM ────▶ 语音识别(Google / Siri 早期)
LDA ────▶ 主题模型(看似没死,其实退化成 LLM 的脚注)
这派的优势是理论扎实——你可以证明你的模型在多少样本下能达到多少误差,可以画出收敛曲线,可以解释"为什么"。
那一时期 ML 课程的标配是"SVM → 随机森林 → boosting → 贝叶斯"。神经网络只是最后一章的"特殊话题",老师还要叮嘱一句"这玩意一般不好使,慎用"。
它没"输",它"被吸收"
2012 之后,统计学习派整体被冷落了——但它没死。它做了一件事:钻进联结主义的骨架里。
今天的深度学习有大量统计学习的语言:
- 损失函数(交叉熵、负对数似然)——统计学的最大似然估计。
- 正则化(L1/L2、dropout)——统计学的过拟合控制。
- 评估方法(K-fold、AUC、PR 曲线)——统计学的标准工具。
- Scaling laws(GPT 系的关键发现)——本质是统计幂律拟合。
Hinton 自己说过:"深度学习的胜利,是统计学习派给我们装的子弹。"
所以你今天看到深度学习里 70% 的术语,是统计学习派遗产。这派没赢"AI 圣杯",但赢了"工程语言"。
4. 1956 → 今天:三派轮流坐庄的真实时间线
把三派的兴衰画成一张表,会比时间线更清楚:
| 年代 | 主流派 | 标志事件 | 寒冬触发 |
|---|---|---|---|
| 1956–1969 | 符号主义 | 达特茅斯会议、SHRDLU | Perceptrons 一书 |
| 1970s | 全行业冷淡 | 第一次 AI 寒冬 | DARPA 撤资 |
| 1980s | 符号主义复活 | 专家系统商业化 | 知识获取瓶颈 |
| 1987–1993 | 全行业冷淡 | 第二次 AI 寒冬 | 日本五代机失败 |
| 1995–2011 | 统计学习 | SVM、随机森林、Kaggle | 没寒冬,但被深度学习超越 |
| 2012–2017 | 联结主义(CV 阶段) | AlexNet、ResNet、AlphaGo | —— |
| 2017–今天 | 联结主义 + 统计学习(LLM 阶段) | Transformer、GPT、Claude | —— |
注意几件事:
- 每一次主流切换,"上一派"都没死,只是退到角落。今天你还能在 SQL 优化器里看到符号主义,在 Kaggle 比赛里看到统计学习,在 GPT 里看到联结主义。
- 寒冬都不是技术问题,是预期管理问题。每一次都是先吹得太大、后落地太慢。
- **没有任何一派"赢到底"。**今天的 LLM 看似是联结主义的胜利,但它的损失函数是统计学习的、它输出的"思维链"是符号主义的。
5. 今天的 LLM:一只三派 DNA 都有的怪物
来仔细拆一下 ChatGPT / Claude 是怎么"杂交"的:
联结主义打地基
模型架构是 Transformer——本质是一个超大号神经网络。1750 亿参数中的每一个数,都是反向传播一步步训出来的。没有联结主义,连"参数"这个概念都不成立。
统计学习当骨架
训练目标是"下一个 token 的最大似然估计"。每一步训练都在做:
loss = -log P(next_token | context)
这就是统计学习里教科书第一章的内容。LLM 不是在"思考",它是在做一个超大规模的条件概率估计。
符号主义在表层伪装
但你跟 GPT 聊天时,它会一步一步推理:"首先… 然后… 因此…"。这看起来像符号主义,对吧?
真相是:模型并不真的在做符号推理。它只是在生成"长得像推理过程"的 token 序列。但—— 这种伪装本身就是有用的。
- 思维链(Chain of Thought):让模型先输出"推理过程",再给答案。准确率显著提升。
- 结构化输出(structured output):强制模型输出 JSON / 表格。本质是用符号格式约束概率分布。
- Tool use:让模型调用外部函数(计算器、搜索)。一旦遇到精确符号操作,就交给外部工具——承认神经网络不擅长这个。
所以 LLM 是一只很奇怪的怪物:
联结主义的身体 ◀── 统计学习的语言 ◀── 符号主义的外衣
(神经网络) (最大似然) (推理形式)
每一层都来自不同的派系。每一派都"输了",但每一派都活在 LLM 体内。
一句你可以拿去吹的话: AI 的三十年内战没有赢家。最终是大模型这个怪物,把三派都吸了进去——身体是联结主义的,骨架是统计学习的,皮肤是符号主义的。
6. 三派思维方式的影响:你应该挑哪派?
抛开学术,实际工程里这三派思维仍然有用:
数据多、特征杂、追求 SOTA → 联结主义
- 训神经网络,调架构,烧 GPU。
- 适合:NLP、CV、推荐、Agent。
- 代价:黑盒,调试靠玄学,算力贵。
数据少、需要可解释、要符合监管 → 统计学习
- 线性回归、随机森林、贝叶斯。
- 适合:金融风控、医疗诊断、A/B 实验。
- 代价:表达能力有限,复杂模式抓不住。
规则可枚举、错一次代价大 → 符号主义
- 编译器、税法计算、安全审计。
- 适合:硬约束逻辑、可形式化的领域。
- 代价:维护成本高,规则爆炸快。
实际项目里你可能三派混用。比如做一个客服系统:
用户问题 ──▶ LLM 理解意图(联结主义)
──▶ 检索知识库 + 排序(统计学习)
──▶ 调用业务规则做最后裁决(符号主义)
这就是为什么"全栈 AI 工程师"现在越来越需要三派的语言都懂一点。
7. 给你的小作业
- 挑一个你最近用过的 AI 产品(搜索、推荐、ChatGPT、自动驾驶),拆出它里面三派的成分各占多少。
- 找一个 80 年代的专家系统案例(MYCIN、XCON),思考一下:如果你今天用 LLM 重做它,会有什么不一样?
- 想一个场景,你不会用神经网络——给出三条理由。(提示:可解释性、数据量、监管)
写不出来不要紧。带着这三个问题去读下一篇。
下一篇钩子:1986 年那篇被冷落了 25 年的反向传播论文,到底说了什么? 为什么它"理论上对"了 25 年,工程上才"对"? 我们将用"下山找最低点"的比喻,把神经网络是怎么"学"的讲清楚—— 你会发现,所谓深度学习,本质就是在一座非常陡的高维大山上,用一个微小的手电筒摸黑下山。