三大推理框架概覽
| 特性 | llama.cpp | MLX | ExLlamaV2 |
|---|---|---|---|
| 平台 | 全平台 | Apple Silicon only | NVIDIA GPU only |
| 格式 | GGUF | MLX / safetensors | GPTQ / EXL2 |
| 速度 (M3 Ultra) | 中等 | 最快 | 不支援 |
| 量化 | Q2-Q8, K-quants | Q4, Q8 | 2-8 bit |
| 生態 | 最成熟 (Ollama) | Apple 官方 | 高階 GPU 用戶 |
llama.cpp
Ollama 的底層引擎,支援所有平台的 CPU/GPU 混合推理。
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make -j
# 下載 GGUF 模型後運行
./llama-cli -m model.gguf -p "Hello world" -ngl 99
- 優勢:生態最大、Ollama 整合、GGUF 模型最豐富
- 劣勢:在 Apple Silicon 上不如 MLX 快
MLX (Apple)
Apple 官方推出,專為 M 系列芯片優化。
pip install mlx-lm
mlx_lm.generate --model mlx-community/Qwen2.5-7B-Instruct-4bit --prompt "Hello"
- 優勢:Apple Silicon 上最快、統一記憶體利用最充分
- 劣勢:限 Apple Silicon、模型庫較小
ExLlamaV2
專為 NVIDIA GPU 設計的高效能推理引擎。
git clone https://github.com/turboderp/exllamav2
pip install exllamav2
- 優勢:NVIDIA GPU 上最快、支援 GPTQ
- 劣勢:僅 NVIDIA GPU、門檻較高
選擇建議
| 你的環境 | 推薦 |
|---|---|
| Mac M 系列 | MLX (最快) > llama.cpp (Ollama) |
| NVIDIA GPU | ExLlamaV2 > llama.cpp |
| CPU only | llama.cpp |
| 追求簡單 | Ollama (底層 llama.cpp) |
| 追求極致效能 | MLX (Mac) / ExLlamaV2 (NVIDIA) |