vLLM 部署與效能調優完整指南

vLLM 是什麼？

vLLM 是目前最快的開源 LLM 推理引擎之一，核心創新是 PagedAttention——類似作業系統的虛擬記憶體管理，大幅減少 KV Cache 浪費。

吞吐量：比 HuggingFace Transformers 快 24 倍
並發：支援高並發請求
OpenAI 兼容 API：無縫遷移

安裝

pip install vllm

部署模型

# 啟動 OpenAI 兼容 Server
vllm serve Qwen/Qwen2.5-7B-Instruct --port 8000

# 量化部署（減少記憶體）
vllm serve Qwen/Qwen2.5-7B-Instruct --quantization awq --port 8000

# 指定 GPU 記憶體
vllm serve Qwen/Qwen2.5-7B-Instruct --gpu-memory-utilization 0.9

在 Claude Code 中使用

{
  "apiKey": "not-needed",
  "baseURL": "http://localhost:8000/v1",
  "model": "Qwen/Qwen2.5-7B-Instruct"
}

效能調優

參數	建議值	說明
`--max-model-len`	8192	最大上下文長度
`--gpu-memory-utilization`	0.9	GPU 記憶體利用率
`--tensor-parallel-size`	GPU 數量	多 GPU 張量並行

vLLM 是什麼？

安裝

部署模型

在 Claude Code 中使用

效能調優

推薦閱讀

相關文章

Claude Code 深度使用指南

DeepSeek V4 Flash / V4 Pro API 最佳實踐與效能對比

其他推理框架對比：llama.cpp、MLX、ExLlamaV2 完整指南

技能資訊