vLLM 是什麼?
vLLM 是目前最快的開源 LLM 推理引擎之一,核心創新是 PagedAttention——類似作業系統的虛擬記憶體管理,大幅減少 KV Cache 浪費。
- 吞吐量:比 HuggingFace Transformers 快 24 倍
- 並發:支援高並發請求
- OpenAI 兼容 API:無縫遷移
安裝
pip install vllm
部署模型
# 啟動 OpenAI 兼容 Server
vllm serve Qwen/Qwen2.5-7B-Instruct --port 8000
# 量化部署(減少記憶體)
vllm serve Qwen/Qwen2.5-7B-Instruct --quantization awq --port 8000
# 指定 GPU 記憶體
vllm serve Qwen/Qwen2.5-7B-Instruct --gpu-memory-utilization 0.9
在 Claude Code 中使用
{
"apiKey": "not-needed",
"baseURL": "http://localhost:8000/v1",
"model": "Qwen/Qwen2.5-7B-Instruct"
}
效能調優
| 參數 | 建議值 | 說明 |
|---|---|---|
--max-model-len |
8192 | 最大上下文長度 |
--gpu-memory-utilization |
0.9 | GPU 記憶體利用率 |
--tensor-parallel-size |
GPU 數量 | 多 GPU 張量並行 |