$ grep -l vllm posts/*.md

本地化部署：从 llama.cpp 到 vLLM，自己跑个推理服务
2026-06-09

AI 系列第 19 篇。闭源 API 贵、有限制、需要联网。这一篇讲怎么在自己机器上跑 LLM——从 MacBook 跑 7B / 70B 模型的 llama.cpp，到生产服务器的 vLLM / SGLang / TGI，再到量化（GPTQ / AWQ / GGUF）让 70B 跑进 48GB 显存。

ai local llama-cpp vllm quantization ai-series