A
返回 工具
工具2026/05/10 君澤智庫研究員 Bryan Chan3 分鐘閱讀

vLLM 部署與效能調優完整指南

vLLM 高效 LLM 推理引擎部署指南:安裝、配置、PagedAttention 原理、效能基準測試。

vLLM 是什麼?

vLLM 是目前最快的開源 LLM 推理引擎之一,核心創新是 PagedAttention——類似作業系統的虛擬記憶體管理,大幅減少 KV Cache 浪費。

  • 吞吐量:比 HuggingFace Transformers 快 24 倍
  • 並發:支援高並發請求
  • OpenAI 兼容 API:無縫遷移

安裝

pip install vllm

部署模型

# 啟動 OpenAI 兼容 Server
vllm serve Qwen/Qwen2.5-7B-Instruct --port 8000

# 量化部署(減少記憶體)
vllm serve Qwen/Qwen2.5-7B-Instruct --quantization awq --port 8000

# 指定 GPU 記憶體
vllm serve Qwen/Qwen2.5-7B-Instruct --gpu-memory-utilization 0.9

在 Claude Code 中使用

{
  "apiKey": "not-needed",
  "baseURL": "http://localhost:8000/v1",
  "model": "Qwen/Qwen2.5-7B-Instruct"
}

效能調優

參數 建議值 說明
--max-model-len 8192 最大上下文長度
--gpu-memory-utilization 0.9 GPU 記憶體利用率
--tensor-parallel-size GPU 數量 多 GPU 張量並行

推薦閱讀