AI 是什么？又是从哪冒出来的？

0. 先做一件小事：把名词的雾散掉

在打开任何一本 AI 教材之前，先做一件几乎所有人都跳过的事——把名词拆开。

AI ⊇ ML ⊇ DL ⊇ LLM

读法：人工智能（AI）包含机器学习（ML），机器学习里有一类叫深度学习（DL），深度学习里又有一支特别能打的，叫大语言模型（LLM）。

AI（Artificial Intelligence）：一个野心，"让机器表现得像有智能"。注意，是"表现得像"，不是"真的有"。
ML（Machine Learning）：一种实现 AI 的手段，"别写规则了，让程序从数据里自己摸出规律"。
DL（Deep Learning）：ML 的一个分支，用很多层的神经网络来"自动找特征"，懒人版的特征工程。
LLM（Large Language Model）：DL 用在语言上的产物，规模大到可以装下"半个互联网"的语言模式。

你今天用的 ChatGPT / Claude / DeepSeek 都是 LLM。但如果有人说"现在 AI 终于来了" —— 严格说，AI 这词 1956 年就有了，只是 2022 年才第一次让普通人觉得"它真的会说话"。

那中间这 66 年都在干嘛？这就是这篇要讲的故事。

1. 一句话定义：AI 到底在做什么？

抛开所有时髦词，AI 在做的事情只有一件：把"经验"转成"判断"。

举个具体的：

你给一个三岁小孩看 50 张猫的照片，他下次在街上看到第 51 只，能指着说"猫"。
你给一个 AI 模型看 5000 万张猫狗照片，它下次看到第 5000 万零 1 张，能 99% 准确率告诉你是猫还是狗。

这个过程的本质是一样的：从过去见过的东西里，归纳出一套判断规则，再把规则用到没见过的东西上。

人类把这件事叫"学习"。机器把这件事叫"训练"。

一句你可以拿去吹的话： 现代 AI 的所有花活，本质都是在解一个问题——"如何让从数据里归纳出来的判断，泛化到没见过的新数据上"。

接下来 80 年的故事，全是围绕"怎么把这件事做得更好"。

2. 时间线：80 年的简史，比你想的有戏

我把它分成四幕。每一幕都有一个让圈外人完全没注意到的转折点。

第一幕：「我们要造电子大脑」（1943 – 1969）

$ history --grep ai | head

1943 年，两个名字今天少有人提的研究者——神经科学家 Warren McCulloch 和数学家 Walter Pitts——发了一篇论文，把一个神经元的行为抽象成了一个逻辑开关：输入若干信号，加权求和，超过阈值就"开"，否则"关"。

这就是后来所有神经网络的祖先。50 年代它还只是一个数学玩具。

1950 年，Alan Turing 在他那篇被引爆到失真的文章 Computing Machinery and Intelligence 里问了一个尖锐的问题："机器能思考吗？" 他给出的回答是著名的图灵测试——"如果你隔着一道墙跟机器聊天聊不出它是机器，那它就算会思考了"。

注意，这个时候还没有"AI"这个词。

1956 年夏天，达特茅斯学院开了一个为期两个月的研讨会，发起人 John McCarthy 在筹款信里造了一个新词，叫 "Artificial Intelligence"。这个夏令营的 10 个人后来基本撑起了 AI 半壁江山。AI 正式有了自己的名字，是在 1956。

接下来十几年，是充满乐观的"造电子大脑"时代：定理证明、跳棋程序、玩积木的对话机器人 SHRDLU…… 圈内有人放话："20 年内我们就能造出和人类一样聪明的机器。"

然后被打脸了。

1969 年，Marvin Minsky 和 Seymour Papert 出了一本叫 Perceptrons 的书，用数学严格证明了当时的单层感知机连"异或"（XOR）这种小学逻辑题都解不了。这本书像一桶冰水浇下去——第一次 AI 寒冬来了，钱断了，论文不发了，研究者改行了。

第二幕：「换条路：让机器先学规则」（1970s – 1990s）

寒冬不是死寂，是换了一条赛道：专家系统。

思路很朴素：既然让机器自己学太难，那就找一群人类专家，把他们脑子里的规则写成 if-then，塞给机器。

IF 病人发烧 AND 喉咙红肿 AND 白细胞高 THEN 可能是细菌感染

1980 年代，专家系统在医疗、地质、金融全面铺开。日本砸了 8.5 亿美元搞「第五代计算机」，目标是用这套思路做出"会推理的电脑"。

但这条路也死了。原因不是技术，是人类专家自己都没法把脑子里的知识写完——你能写下你怎么认出妈妈的脸吗？你能写下你怎么判断这句话听起来像反话吗？写不下来。一旦规则覆盖不全，系统就开始胡说八道。

1980 年代末，第二次 AI 寒冬。投资人撤资，DARPA 撤资，"AI" 这个词甚至开始被科研圈嫌弃——求职信里不敢写自己做 AI，要写"统计建模" / "决策支持系统"。

但寒冬里有一颗种子在发芽。1986 年，Rumelhart、Hinton、Williams 三个人发了一篇论文，把反向传播算法（backpropagation）讲清楚了。这个算法让多层神经网络第一次有办法被训练。

这个时候没人觉得它会改变世界，因为算力不够，数据也不够。它就静静地在那里，等了 25 年。

第三幕：「数据 + 算力 + 一篇论文」（2006 – 2016）

进入 21 世纪，事情开始悄悄变化。

2006 年，Geoffrey Hinton 发了 deep belief networks 的论文，把"deep learning"这个词重新带回视野——这之前神经网络被嫌弃得连论文都难发。

2009 年，斯坦福的李飞飞团队搞了一个叫 ImageNet 的数据集：1400 万张人工标注好的图片。这是 AI 史上一个被严重低估的里程碑——没有 ImageNet，就没有后面的一切。

2012 年 9 月 30 日——这是个值得记住的日子——Hinton 的学生 Alex Krizhevsky 用一个叫 AlexNet 的卷积神经网络，在 ImageNet 图像识别竞赛上一口气把错误率从 26% 砍到 15%。第二名比第一名差出去了 10 个百分点，这在那个赛道里相当于让对手在原地。

那一晚，所有原本研究 SVM、研究随机森林的人都知道：风向变了。

接下来五年，深度学习像被点了灯一样：

2014 —— GAN（生成对抗网络）出现，Ian Goodfellow 让两个网络互相骗，于是机器学会了"画画"。
2015 —— ResNet 把网络做到 152 层，准确率正式超过人类肉眼。
2016 —— AlphaGo 4:1 打败李世石。普通人第一次在电视新闻里看到"AI"这个词。

但要注意——这个阶段的 AI 还是"一个任务一个模型"的。识图的不能写字，下棋的不能聊天。每个模型都是个偏科生。

第四幕：「一个模型干所有事」（2017 – 现在）

2017 年 6 月 12 日，Google 八个研究员往 arXiv 上扔了一篇论文，标题就跟挑衅似的：Attention is All You Need。

这篇论文提出了 Transformer 架构——一种全新的处理序列数据的方法。之前主流的 RNN / LSTM 像是只能逐字读书的人，Transformer 则像是能同时盯着整页书、用"注意力"去关联词与词的人。

这篇论文今天的引用数已经超过 17 万次，但当时没人意识到它会重写整个 AI 行业。直到——

2018 —— OpenAI 用 Transformer 的 decoder 做了 GPT-1，1.17 亿参数。
2019 —— GPT-2，15 亿参数，OpenAI 一度声称"太危险，不敢全部开源"（被嘲了，但起到了营销作用）。
2020 —— GPT-3，1750 亿参数。第一次让圈外人吓到——它能写代码、写诗、写论文摘要，而且没有人专门教它做这些。
2022 年 11 月 30 日 —— ChatGPT 上线。5 天破百万用户，2 个月破 1 亿。AI 第一次从"科研圈玩具"变成"我妈也在用"。
2023 – 2024 —— GPT-4、Claude 3、Gemini、Llama、Qwen、DeepSeek……多模态、长上下文、工具调用、Agent，一年一个时代。
2024 年底 – 2025 —— 推理模型（reasoning models）登场：OpenAI 的 o1 / o3，DeepSeek R1。模型学会了"先想一会儿再回答"，数学和代码能力跳了一个台阶。
2026（现在） —— 你在读这篇文章。Claude Opus 4.7 已经能在 1M 上下文里干活，前沿模型已经在做"几小时不打断地自主完成一段研发任务"这件事了。

把这条线一口气拉完，你会发现一件事：

从 1943 到 2012，AI 经历了 69 年的爬坡；从 2012 到 2017，5 年完成了"让机器看见"；从 2017 到 2022，5 年完成了"让机器开口"；从 2022 到现在，4 年完成了"让机器开始行动"。

每一阶段都在缩短。

3. 这三幕背后，藏着一个三十年的世仇

如果你只想看故事，第 2 节看完就够了。但如果你想理解今天的 AI 为什么长这个样子，必须知道一件事——

AI 圈一直有三派人，互相看不顺眼：

流派	主张	代表	信条
符号主义（Symbolic）	智能 = 操纵符号 + 逻辑推理	McCarthy、Minsky、专家系统	"先教它规则"
联结主义（Connectionist）	智能 = 大量神经元的连接	Hinton、LeCun、Bengio	"让它自己长出来"
统计学习（Statistical）	智能 = 在数据里找概率分布	Vapnik (SVM)、贝叶斯派	"数据说话，别讲故事"

50 ~ 80 年代符号主义占上风，结果寒冬了。 90 ~ 00 年代统计学习当道（SVM 那波）。 2012 之后联结主义大反扑——今天的深度学习 / LLM 全是联结主义路线的胜利。

但——你今天看到的 ChatGPT，其实是联结主义打地基 + 统计学习当骨架 + 一点点符号主义在表层伪装"我在推理"。三派打了三十年，结果在大模型这个怪物身上奇怪地融合了。

下一篇会专门讲这场世仇，以及为什么"赢的那派"其实是把另外两派偷偷吸收了。

4. 一个常见的误解，趁早破掉

很多人第一次接触 LLM 时，会问一个问题：

"它真的懂我说的话吗？"

我给你一个最朴素、也最准确的回答：

今天的 LLM 在做的事，本质上是"在给定上下文里，预测下一个 token 最可能是什么"。

它不是在"思考"你问的问题。它是在算："如果一个人类在网络上看到这句话，最可能接着写什么？"

听起来很 cheap，对吧？但有意思的事情是——当你把这个 cheap 的能力放大 1000 倍、塞进 1750 亿个参数、喂下半个互联网之后，它开始呈现出一些它没被显式教过的能力：翻译、写代码、解方程、推理、做角色扮演。

这种现象有个专有名词，叫涌现（emergence）。一只蚂蚁不会修桥，一千万只蚂蚁可以筑出一座蚁巢——你没法从单只蚂蚁的行为里推出蚁巢的复杂度。LLM 的"看起来像在思考"，目前我们的最佳解释，也只是"涌现"。

这是不是真正的智能？ 这是一个还没有答案的问题。但它已经足够好用了。

5. 给后续学习铺一张地图

到这里你应该已经有这样一种感觉：

AI 是一个 80 年的工程，不是一夜之间冒出来的。
它经历过两次寒冬，第一次死于"专家写不完规则"，第二次死于"数据和算力不够"。
今天的繁荣有三个支柱：算法（Transformer） + 数据（互联网） + 算力（GPU）。任何一根抽掉，2022 那场革命都不会发生。
它本质是"用海量数据，归纳出一套压缩了世界规律的判断函数"，而不是某种神秘的意识。

接下来的系列文章会顺着这条线往下挖：

当前位置  ──▶ 02. 三大流派世仇：为什么是联结主义赢了
              03. 神经网络是怎么"学"的（梯度下降的直觉版）
              04. 从感知机到 CNN：让机器看见
              05. 从 RNN 到 Transformer：让机器读懂顺序
              06. 词向量小史
              ...
              一路通到 RAG / Agent / 评估 / 多模态

完整路线图：docs/ai-series-plan.md。

6. 留给你（和我自己）的小作业

读完一篇文章不复述一遍，等于没读。每篇结尾我都会给一个小练习。

三个词解释 AI / ML / DL / LLM 的关系——不许查资料，写在纸上 / 备忘录里。
写一句话，回答你妈妈"AI 是什么"——不准用"大模型""神经网络"这类词。
挑一个时间节点（1943 / 1956 / 1969 / 1986 / 2012 / 2017 / 2022），用一句话说它为什么重要。

写不出来？没关系。下一篇见。

下一篇钩子：1986 年那篇被冷落了 25 年的反向传播论文，为什么 2012 年突然就改变了世界？同一篇论文，为什么 1986 年算"无人问津"，2012 年算"地震"？答案不在算法本身，在算力 / 数据 / 信仰——一个值得单独写一篇的故事。