← cd ../posts

AI 是什么?又是从哪冒出来的?

2026-05-22

0. 先做一件小事:把名词的雾散掉

在打开任何一本 AI 教材之前,先做一件几乎所有人都跳过的事——把名词拆开

AI ⊇ ML ⊇ DL ⊇ LLM

读法:人工智能(AI)包含机器学习(ML),机器学习里有一类叫深度学习(DL),深度学习里又有一支特别能打的,叫大语言模型(LLM)。

  • AI(Artificial Intelligence):一个野心,"让机器表现得像有智能"。注意,是"表现得像",不是"真的有"。
  • ML(Machine Learning):一种实现 AI 的手段,"别写规则了,让程序从数据里自己摸出规律"。
  • DL(Deep Learning):ML 的一个分支,用很多层的神经网络来"自动找特征",懒人版的特征工程。
  • LLM(Large Language Model):DL 用在语言上的产物,规模大到可以装下"半个互联网"的语言模式。

你今天用的 ChatGPT / Claude / DeepSeek 都是 LLM。但如果有人说"现在 AI 终于来了" —— 严格说,AI 这词 1956 年就有了,只是 2022 年才第一次让普通人觉得"它真的会说话"。

那中间这 66 年都在干嘛?这就是这篇要讲的故事。


1. 一句话定义:AI 到底在做什么?

抛开所有时髦词,AI 在做的事情只有一件:把"经验"转成"判断"

举个具体的:

  • 你给一个三岁小孩看 50 张猫的照片,他下次在街上看到第 51 只,能指着说"猫"。
  • 你给一个 AI 模型看 5000 万张猫狗照片,它下次看到第 5000 万零 1 张,能 99% 准确率告诉你是猫还是狗。

这个过程的本质是一样的:从过去见过的东西里,归纳出一套判断规则,再把规则用到没见过的东西上

人类把这件事叫"学习"。机器把这件事叫"训练"。

一句你可以拿去吹的话: 现代 AI 的所有花活,本质都是在解一个问题——"如何让从数据里归纳出来的判断,泛化到没见过的新数据上"。

接下来 80 年的故事,全是围绕"怎么把这件事做得更好"。


2. 时间线:80 年的简史,比你想的有戏

我把它分成四幕。每一幕都有一个让圈外人完全没注意到的转折点。

第一幕:「我们要造电子大脑」(1943 – 1969)

$ history --grep ai | head

1943 年,两个名字今天少有人提的研究者——神经科学家 Warren McCulloch 和数学家 Walter Pitts——发了一篇论文,把一个神经元的行为抽象成了一个逻辑开关:输入若干信号,加权求和,超过阈值就"开",否则"关"。

这就是后来所有神经网络的祖先。50 年代它还只是一个数学玩具。

1950 年,Alan Turing 在他那篇被引爆到失真的文章 Computing Machinery and Intelligence 里问了一个尖锐的问题:"机器能思考吗?" 他给出的回答是著名的图灵测试——"如果你隔着一道墙跟机器聊天聊不出它是机器,那它就算会思考了"。

注意,这个时候还没有"AI"这个词。

1956 年夏天,达特茅斯学院开了一个为期两个月的研讨会,发起人 John McCarthy 在筹款信里造了一个新词,叫 "Artificial Intelligence"。这个夏令营的 10 个人后来基本撑起了 AI 半壁江山。AI 正式有了自己的名字,是在 1956。

接下来十几年,是充满乐观的"造电子大脑"时代:定理证明、跳棋程序、玩积木的对话机器人 SHRDLU…… 圈内有人放话:"20 年内我们就能造出和人类一样聪明的机器。"

然后被打脸了。

1969 年,Marvin Minsky 和 Seymour Papert 出了一本叫 Perceptrons 的书,用数学严格证明了当时的单层感知机连"异或"(XOR)这种小学逻辑题都解不了。这本书像一桶冰水浇下去——第一次 AI 寒冬来了,钱断了,论文不发了,研究者改行了。

第二幕:「换条路:让机器先学规则」(1970s – 1990s)

寒冬不是死寂,是换了一条赛道:专家系统

思路很朴素:既然让机器自己学太难,那就找一群人类专家,把他们脑子里的规则写成 if-then,塞给机器。

IF 病人发烧 AND 喉咙红肿 AND 白细胞高 THEN 可能是细菌感染

1980 年代,专家系统在医疗、地质、金融全面铺开。日本砸了 8.5 亿美元搞「第五代计算机」,目标是用这套思路做出"会推理的电脑"。

但这条路也死了。原因不是技术,是人类专家自己都没法把脑子里的知识写完——你能写下你怎么认出妈妈的脸吗?你能写下你怎么判断这句话听起来像反话吗?写不下来。一旦规则覆盖不全,系统就开始胡说八道。

1980 年代末,第二次 AI 寒冬。投资人撤资,DARPA 撤资,"AI" 这个词甚至开始被科研圈嫌弃——求职信里不敢写自己做 AI,要写"统计建模" / "决策支持系统"。

但寒冬里有一颗种子在发芽。1986 年,Rumelhart、Hinton、Williams 三个人发了一篇论文,把反向传播算法(backpropagation)讲清楚了。这个算法让多层神经网络第一次有办法被训练。

这个时候没人觉得它会改变世界,因为算力不够,数据也不够。它就静静地在那里,等了 25 年。

第三幕:「数据 + 算力 + 一篇论文」(2006 – 2016)

进入 21 世纪,事情开始悄悄变化。

2006 年,Geoffrey Hinton 发了 deep belief networks 的论文,把"deep learning"这个词重新带回视野——这之前神经网络被嫌弃得连论文都难发。

2009 年,斯坦福的李飞飞团队搞了一个叫 ImageNet 的数据集:1400 万张人工标注好的图片。这是 AI 史上一个被严重低估的里程碑——没有 ImageNet,就没有后面的一切

2012 年 9 月 30 日——这是个值得记住的日子——Hinton 的学生 Alex Krizhevsky 用一个叫 AlexNet 的卷积神经网络,在 ImageNet 图像识别竞赛上一口气把错误率从 26% 砍到 15%。第二名比第一名差出去了 10 个百分点,这在那个赛道里相当于让对手在原地。

那一晚,所有原本研究 SVM、研究随机森林的人都知道:风向变了

接下来五年,深度学习像被点了灯一样:

  • 2014 —— GAN(生成对抗网络)出现,Ian Goodfellow 让两个网络互相骗,于是机器学会了"画画"。
  • 2015 —— ResNet 把网络做到 152 层,准确率正式超过人类肉眼。
  • 2016 —— AlphaGo 4:1 打败李世石。普通人第一次在电视新闻里看到"AI"这个词。

但要注意——这个阶段的 AI 还是"一个任务一个模型"的。识图的不能写字,下棋的不能聊天。每个模型都是个偏科生。

第四幕:「一个模型干所有事」(2017 – 现在)

2017 年 6 月 12 日,Google 八个研究员往 arXiv 上扔了一篇论文,标题就跟挑衅似的:Attention is All You Need

这篇论文提出了 Transformer 架构——一种全新的处理序列数据的方法。之前主流的 RNN / LSTM 像是只能逐字读书的人,Transformer 则像是能同时盯着整页书、用"注意力"去关联词与词的人。

这篇论文今天的引用数已经超过 17 万次,但当时没人意识到它会重写整个 AI 行业。直到——

  • 2018 —— OpenAI 用 Transformer 的 decoder 做了 GPT-1,1.17 亿参数。
  • 2019 —— GPT-2,15 亿参数,OpenAI 一度声称"太危险,不敢全部开源"(被嘲了,但起到了营销作用)。
  • 2020 —— GPT-31750 亿参数。第一次让圈外人吓到——它能写代码、写诗、写论文摘要,而且没有人专门教它做这些
  • 2022 年 11 月 30 日 —— ChatGPT 上线。5 天破百万用户,2 个月破 1 亿。AI 第一次从"科研圈玩具"变成"我妈也在用"。
  • 2023 – 2024 —— GPT-4、Claude 3、Gemini、Llama、Qwen、DeepSeek……多模态、长上下文、工具调用、Agent,一年一个时代。
  • 2024 年底 – 2025 —— 推理模型(reasoning models)登场:OpenAI 的 o1 / o3,DeepSeek R1。模型学会了"先想一会儿再回答",数学和代码能力跳了一个台阶。
  • 2026(现在) —— 你在读这篇文章。Claude Opus 4.7 已经能在 1M 上下文里干活,前沿模型已经在做"几小时不打断地自主完成一段研发任务"这件事了。

把这条线一口气拉完,你会发现一件事:

从 1943 到 2012,AI 经历了 69 年的爬坡; 从 2012 到 2017,5 年完成了"让机器看见"; 从 2017 到 2022,5 年完成了"让机器开口"; 从 2022 到现在,4 年完成了"让机器开始行动"。

每一阶段都在缩短。


3. 这三幕背后,藏着一个三十年的世仇

如果你只想看故事,第 2 节看完就够了。但如果你想理解今天的 AI 为什么长这个样子,必须知道一件事——

AI 圈一直有三派人,互相看不顺眼:

流派 主张 代表 信条
符号主义(Symbolic) 智能 = 操纵符号 + 逻辑推理 McCarthy、Minsky、专家系统 "先教它规则"
联结主义(Connectionist) 智能 = 大量神经元的连接 Hinton、LeCun、Bengio "让它自己长出来"
统计学习(Statistical) 智能 = 在数据里找概率分布 Vapnik (SVM)、贝叶斯派 "数据说话,别讲故事"

50 ~ 80 年代符号主义占上风,结果寒冬了。 90 ~ 00 年代统计学习当道(SVM 那波)。 2012 之后联结主义大反扑——今天的深度学习 / LLM 全是联结主义路线的胜利。

——你今天看到的 ChatGPT,其实是联结主义打地基 + 统计学习当骨架 + 一点点符号主义在表层伪装"我在推理"。 三派打了三十年,结果在大模型这个怪物身上奇怪地融合了。

下一篇会专门讲这场世仇,以及为什么"赢的那派"其实是把另外两派偷偷吸收了。


4. 一个常见的误解,趁早破掉

很多人第一次接触 LLM 时,会问一个问题:

"它真的懂我说的话吗?"

我给你一个最朴素、也最准确的回答:

今天的 LLM 在做的事,本质上是"在给定上下文里,预测下一个 token 最可能是什么"。

它不是在"思考"你问的问题。它是在算:"如果一个人类在网络上看到这句话,最可能接着写什么?"

听起来很 cheap,对吧?但有意思的事情是——当你把这个 cheap 的能力放大 1000 倍、塞进 1750 亿个参数、喂下半个互联网之后,它开始呈现出一些它没被显式教过的能力:翻译、写代码、解方程、推理、做角色扮演。

这种现象有个专有名词,叫涌现(emergence)。一只蚂蚁不会修桥,一千万只蚂蚁可以筑出一座蚁巢——你没法从单只蚂蚁的行为里推出蚁巢的复杂度。LLM 的"看起来像在思考",目前我们的最佳解释,也只是"涌现"。

这是不是真正的智能? 这是一个还没有答案的问题。但它已经足够好用了。


5. 给后续学习铺一张地图

到这里你应该已经有这样一种感觉:

  • AI 是一个 80 年的工程,不是一夜之间冒出来的。
  • 它经历过两次寒冬,第一次死于"专家写不完规则",第二次死于"数据和算力不够"。
  • 今天的繁荣有三个支柱:算法(Transformer) + 数据(互联网) + 算力(GPU)。任何一根抽掉,2022 那场革命都不会发生。
  • 它本质是"用海量数据,归纳出一套压缩了世界规律的判断函数",而不是某种神秘的意识。

接下来的系列文章会顺着这条线往下挖:

当前位置  ──▶ 02. 三大流派世仇:为什么是联结主义赢了
              03. 神经网络是怎么"学"的(梯度下降的直觉版)
              04. 从感知机到 CNN:让机器看见
              05. 从 RNN 到 Transformer:让机器读懂顺序
              06. 词向量小史
              ...
              一路通到 RAG / Agent / 评估 / 多模态

完整路线图:docs/ai-series-plan.md


6. 留给你(和我自己)的小作业

读完一篇文章不复述一遍,等于没读。每篇结尾我都会给一个小练习。

  1. 三个词解释 AI / ML / DL / LLM 的关系——不许查资料,写在纸上 / 备忘录里。
  2. 写一句话,回答你妈妈"AI 是什么"——不准用"大模型""神经网络"这类词。
  3. 挑一个时间节点(1943 / 1956 / 1969 / 1986 / 2012 / 2017 / 2022),用一句话说它为什么重要。

写不出来?没关系。下一篇见。

下一篇钩子:1986 年那篇被冷落了 25 年的反向传播论文,为什么 2012 年突然就改变了世界? 同一篇论文,为什么 1986 年算"无人问津",2012 年算"地震"? 答案不在算法本身,在算力 / 数据 / 信仰——一个值得单独写一篇的故事。