A
返回 工具
工具2026/05/10 君澤智庫研究員 Bryan Chan4 分鐘閱讀

其他推理框架對比:llama.cpp、MLX、ExLlamaV2 完整指南

三大本地 LLM 推理框架深度對比:llama.cpp (GGUF)、Apple MLX、ExLlamaV2,涵蓋安裝、效能、適用場景。

三大推理框架概覽

特性 llama.cpp MLX ExLlamaV2
平台 全平台 Apple Silicon only NVIDIA GPU only
格式 GGUF MLX / safetensors GPTQ / EXL2
速度 (M3 Ultra) 中等 最快 不支援
量化 Q2-Q8, K-quants Q4, Q8 2-8 bit
生態 最成熟 (Ollama) Apple 官方 高階 GPU 用戶

llama.cpp

Ollama 的底層引擎,支援所有平台的 CPU/GPU 混合推理。

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make -j

# 下載 GGUF 模型後運行
./llama-cli -m model.gguf -p "Hello world" -ngl 99
  • 優勢:生態最大、Ollama 整合、GGUF 模型最豐富
  • 劣勢:在 Apple Silicon 上不如 MLX 快

MLX (Apple)

Apple 官方推出,專為 M 系列芯片優化。

pip install mlx-lm
mlx_lm.generate --model mlx-community/Qwen2.5-7B-Instruct-4bit --prompt "Hello"
  • 優勢:Apple Silicon 上最快、統一記憶體利用最充分
  • 劣勢:限 Apple Silicon、模型庫較小

ExLlamaV2

專為 NVIDIA GPU 設計的高效能推理引擎。

git clone https://github.com/turboderp/exllamav2
pip install exllamav2
  • 優勢:NVIDIA GPU 上最快、支援 GPTQ
  • 劣勢:僅 NVIDIA GPU、門檻較高

選擇建議

你的環境 推薦
Mac M 系列 MLX (最快) > llama.cpp (Ollama)
NVIDIA GPU ExLlamaV2 > llama.cpp
CPU only llama.cpp
追求簡單 Ollama (底層 llama.cpp)
追求極致效能 MLX (Mac) / ExLlamaV2 (NVIDIA)

推薦閱讀