~$ tenggouwa
~ posts inspirations lab about

$ grep -l vllm posts/*.md

  • 本地化部署:从 llama.cpp 到 vLLM,自己跑个推理服务

    2026-06-09

    AI 系列第 19 篇。闭源 API 贵、有限制、需要联网。这一篇讲怎么在自己机器上跑 LLM——从 MacBook 跑 7B / 70B 模型的 llama.cpp,到生产服务器的 vLLM / SGLang / TGI,再到量化(GPTQ / AWQ / GGUF)让 70B 跑进 48GB 显存。

    ai local llama-cpp vllm quantization ai-series
© 2026 tenggouwa · made with caffeine ☕
RSS [ uptime: ∞ ]