AI 系列 · tenggouwa

01.AI 是什么？又是从哪冒出来的？

2026-05-22

AI 系列第 1 篇。用一条 80 年的时间线，把"AI"这两个字从 1943 年的神经元模型，一路串到今天能跟你聊天的大模型——顺便把几个常被混淆的术语（AI / ML / DL / LLM）一次性厘清。

02.三大流派世仇：符号主义、联结主义、统计学习

2026-05-23

AI 系列第 2 篇。把 AI 圈三十年的派系斗争捋一遍——符号主义、联结主义、统计学习各自起源、各自高光、各自寒冬，再看为什么今天的 LLM 是"联结主义打地基 + 统计学习当骨架 + 一点点符号主义假装在推理"的杂交怪物。

03.神经网络是怎么"学"的：梯度下降与反向传播

2026-05-24

AI 系列第 3 篇。把 1986 年那篇被冷落了 25 年的反向传播论文讲清楚。用"在高维大山上摸黑下山"的比喻，从损失函数 → 梯度 → 梯度下降 → 反向传播一路推到底，最后回答："为什么同一篇论文 1986 没人用、2012 改变了世界？

04.从感知机到 CNN：让机器看见

2026-05-25

AI 系列第 4 篇。把"机器视觉" 70 年的故事讲完——从 1958 Rosenblatt 的感知机、1980 福岛邦彦那篇被冷落的 Neocognitron、1998 LeCun 的 LeNet 上美国邮局，到 2012 AlexNet 那场把 SVM 派踩进土里的 ImageNet 之战。最后回答：今天 ViT 打败 CNN 了吗？

05.从 RNN 到 Transformer：让机器读懂顺序

2026-05-26

AI 系列第 5 篇。把"让机器理解一句话"的 31 年讲完——1986 年的 RNN、1997 年的 LSTM、2014 年的 seq2seq + attention，再到 2017 年那篇 8 页论文 *Attention is All You Need* 怎么把 RNN 一脚踢出主流。重点不是数学，是直觉：attention 到底是什么意思，它凭什么赢。

06.词向量小史：从 one-hot 到 embedding

2026-05-27

AI 系列第 6 篇。机器只懂数字，怎么把"咖啡店"这三个字变成一个能算的向量？这一篇走完词向量 70 年——从 1957 的 one-hot，到 2013 那个让"国王 − 男人 + 女人 ≈ 女王"成立的 word2vec，再到今天 LLM 内部的 1.2 万维 embedding 空间。

07.GPT 家族进化论：从 117M 到万亿参数都变了什么

2026-05-28

AI 系列第 7 篇。GPT-1 / 2 / 3 / 3.5 / 4 / 4o / 4.5 一路看下来，你会发现一个反直觉的真相——架构几乎没变，**变的只是规模、数据、和一些工程小动作**。这一篇把每一代的关键变化拆开讲。

08.Scaling Laws & 涌现：为什么"大力出奇迹"真的成立

2026-05-29

AI 系列第 8 篇。2020 OpenAI 的 Kaplan 团队和 2022 DeepMind 的 Chinchilla 论文揭示了一件不可思议的事：模型性能可以**用幂律预测**。这一篇讲清楚 scaling laws 是什么、为什么"涌现"现象让大家觉得 AI 突然变聪明、以及为什么 2024 之后这条曲线开始走平。

09.训练管线全景：pretrain → SFT → RLHF / DPO 每一步在塞什么

2026-05-30

AI 系列第 9 篇。ChatGPT 不是一次训出来的。它要经过预训练 → 监督微调 → 奖励建模 → 强化学习四个阶段，每一阶段塞进去的"灵魂"完全不同。这一篇把完整管线拆开讲，最后聊聊 2024 之后 DPO 怎么把 RLHF 给简化掉了。

10.Tokenizer 与 Context Window：模型眼里的世界

2026-05-31

AI 系列第 10 篇。LLM 不读字符，它读 token。一篇文章在它眼里不是字符流，而是 token 流。这一篇讲 BPE 算法是怎么把文字切成 token 的、为什么 LLM 数不清 strawberry 的 r、以及 context window 从 2K 卷到 1M 的工程惊悚故事。

11.推理时优化：temperature、top-p、CoT、structured output

2026-06-01

AI 系列第 11 篇。模型训完了，调用时还有一堆"旋钮"——temperature、top-p、思维链、structured output、reasoning effort。这一篇把这些参数怎么影响输出讲清楚，并对比 reasoning model (o1/Claude thinking) 和普通模型在用法上的本质区别。

12.Prompt Engineering 的本质：你不是在写咒语，你是在压缩上下文

2026-06-02

AI 系列第 12 篇。"prompt engineering"听起来像玄学，但本质是一件非常工程的事——**给定有限的 token 预算，怎么塞进最高信息密度的上下文**。这一篇讲 prompt 是什么、不是什么，并给出几个真正有效的模板与反模式。

13.RAG：给模型外挂一个"知识硬盘

2026-06-03

AI 系列第 13 篇。LLM 的训练数据有截止日期，也装不下你公司 10 万份内部文档。RAG 是给它外挂"知识硬盘"的标准方案。这一篇讲清楚 RAG 的完整流水线、向量搜索的真实局限、以及为什么"hybrid + rerank"才是生产级 RAG 的标配。

14.Tool Use / Function Calling：模型怎么学会"打电话给真实世界

2026-06-04

AI 系列第 14 篇。RAG 让模型能查资料，tool use 让模型能**做事**——查天气、订机票、跑 SQL、发邮件。这一篇讲 function calling 的协议层、训练层、和工程层，并解释为什么 2024 之后 tool use 是从"玩具"变成"基础设施"的拐点。

15.Agent：从一次响应到一段"自主行动

2026-06-05

AI 系列第 15 篇。tool use 让 LLM 能调一次工具。agent 让它能**自主规划 + 多步执行 + 自我纠正**。这一篇拆 ReAct、Plan-and-Execute、Tree of Thoughts、Reflexion 几个主流范式，并解释 2025-2026 年"agent"这个词为什么被严重滥用。

16.MCP & Agent SDK：今天构建 agent 的事实标准

2026-06-06

AI 系列第 16 篇。2024 年底 Anthropic 发布 MCP（Model Context Protocol），2025 年 Agent SDK 陆续出现。这一篇讲清楚 MCP 是什么、为什么有人喊它"AI 时代的 HTTP"、以及它和 OpenAI Function Calling 怎么共存。

17.Evals：怎么知道模型"真的变好了"而不是看起来变好了

2026-06-07

AI 系列第 17 篇。"GPT-5 比 GPT-4 强"——你怎么验证？AI 工程里最被低估的一块是 evals（评估）。这一篇讲清楚 LLM benchmark 的局限、为什么 leaderboard 越来越没用、以及生产级 evals 应该怎么做。

18.对齐与安全：有用、无害、诚实的工程化

2026-06-08

AI 系列第 18 篇。"对齐"听起来很哲学，但它其实是一个工程问题——怎么让 LLM 在能力范围内做有用的事、拒绝有害的事、不撒谎。这一篇讲 HHH 原则、Constitutional AI、jailbreak 攻防、以及 2026 年 AI 安全的真实焦虑点。

19.本地化部署：从 llama.cpp 到 vLLM，自己跑个推理服务

2026-06-09

AI 系列第 19 篇。闭源 API 贵、有限制、需要联网。这一篇讲怎么在自己机器上跑 LLM——从 MacBook 跑 7B / 70B 模型的 llama.cpp，到生产服务器的 vLLM / SGLang / TGI，再到量化（GPTQ / AWQ / GGUF）让 70B 跑进 48GB 显存。

20.多模态：图、音、视频是怎么挤进 token 空间的

2026-06-10

AI 系列第 20 篇。LLM 只懂 token。怎么让它看图、听声、理解视频？答案是把所有模态都"翻译"进同一个 token 空间。这一篇讲 CLIP、Flamingo、GPT-4V、Whisper、Sora 是怎么把多种模态打通的，以及 2025-2026 年"原生多模态"为什么是新主流。

21.世界模型 & 视频生成：Sora / Genie / V-JEPA 在赌什么

2026-06-11

AI 系列第 21 篇。Sora 看似在"画视频"，背后真正的野心是建立 world model（世界模型）——一个能"理解物理"的 AI。这一篇讲 LeCun 的 V-JEPA、Sora 的扩散路线、DeepMind Genie 的生成式游戏世界，以及"世界模型"这个概念为什么是下一个十年的 AI 主战场。

22.推理模型与 RL 的回归：o1 / R1 之后路通向哪

2026-06-12

AI 系列第 22 篇。2024 年 o1 出现，标志着大模型从"快速反应"走向"慢思考"。2025 年 DeepSeek R1 开源了同等级的推理能力，让全行业震动。这一篇讲 reasoning model 是怎么训的、RL 为什么在 LLM 时代"回来了"、以及 test-time compute scaling 的新范式。

23.开源生态与闭源前沿：2026 的牌面对比

2026-06-13

AI 系列第 23 篇（终篇）。Llama / Qwen / DeepSeek vs. Anthropic / OpenAI / Google——开源派和闭源派今天的差距有多大？谁在哪个维度领先？这一篇做一次 birds-eye 对比，并展望 2026 后 12 个月最值得关注的几件事。

$ cd series/AI 系列