AI 系列第 19 篇。闭源 API 贵、有限制、需要联网。这一篇讲怎么在自己机器上跑 LLM——从 MacBook 跑 7B / 70B 模型的 llama.cpp,到生产服务器的 vLLM / SGLang / TGI,再到量化(GPTQ / AWQ / GGUF)让 70B 跑进 48GB 显存。