Agentic Research

工具2026/05/10 君澤智庫研究員 Bryan Chan4 分鐘閱讀

其他推理框架對比：llama.cpp、MLX、ExLlamaV2 完整指南

三大本地 LLM 推理框架深度對比：llama.cpp (GGUF)、Apple MLX、ExLlamaV2，涵蓋安裝、效能、適用場景。

llama.cpp MLX ExLlamaV2 Inference Local LLM

三大推理框架概覽

特性	llama.cpp	MLX	ExLlamaV2
平台	全平台	Apple Silicon only	NVIDIA GPU only
格式	GGUF	MLX / safetensors	GPTQ / EXL2
速度 (M3 Ultra)	中等	最快	不支援
量化	Q2-Q8, K-quants	Q4, Q8	2-8 bit
生態	最成熟 (Ollama)	Apple 官方	高階 GPU 用戶

llama.cpp

Ollama 的底層引擎，支援所有平台的 CPU/GPU 混合推理。

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make -j

# 下載 GGUF 模型後運行
./llama-cli -m model.gguf -p "Hello world" -ngl 99

優勢：生態最大、Ollama 整合、GGUF 模型最豐富
劣勢：在 Apple Silicon 上不如 MLX 快

MLX (Apple)

Apple 官方推出，專為 M 系列芯片優化。

pip install mlx-lm
mlx_lm.generate --model mlx-community/Qwen2.5-7B-Instruct-4bit --prompt "Hello"

優勢：Apple Silicon 上最快、統一記憶體利用最充分
劣勢：限 Apple Silicon、模型庫較小

ExLlamaV2

專為 NVIDIA GPU 設計的高效能推理引擎。

git clone https://github.com/turboderp/exllamav2
pip install exllamav2

優勢：NVIDIA GPU 上最快、支援 GPTQ
劣勢：僅 NVIDIA GPU、門檻較高

選擇建議

你的環境	推薦
Mac M 系列	MLX (最快) > llama.cpp (Ollama)
NVIDIA GPU	ExLlamaV2 > llama.cpp
CPU only	llama.cpp
追求簡單	Ollama (底層 llama.cpp)
追求極致效能	MLX (Mac) / ExLlamaV2 (NVIDIA)

推薦閱讀

相關文章

Claude Code 深度使用指南

從安裝配置到高階技巧，全面掌握 Claude Code CLI 工具 — 實際用 DeepSeek V4 / ModelStudio 驅動，提升日常開發效率。

DeepSeek V4 Flash / V4 Pro API 最佳實踐與效能對比

DeepSeek V4 系列模型完整指南：V4 Flash vs V4 Pro 的效能、定價、使用場景對比，附帶 API 調用示例和成本估算。

LiteLLM Proxy 多模型路由實戰

使用 LiteLLM Proxy 統一管理 DeepSeek、ModelStudio、Ollama 等多個 LLM 後端 — 負載均衡、成本追蹤、fallback 配置。

DeepSeek V4 Flash / V4 Pro API 最佳實踐與效能對比 LiteLLM Proxy 多模型路由實戰

技能資訊

適用場景

內容生成

輸出格式

HTML 文件

相關標籤

#llama.cpp #MLX #ExLlamaV2 #Inference #Local LLM