oMLX 安裝與使用指南：在 Apple Silicon 上原生運行 MLX 模型

oMLX 是什麼？

oMLX 是一個基於 Apple MLX 框架的桌面應用，讓你在 Apple Silicon Mac 上原生運行 MLX 格式的 LLM。MLX 是 Apple 官方推出的機器學習框架，專為 M 系列芯片優化。

原生 Apple Silicon：利用 M3 Ultra 的 GPU + Neural Engine
統一記憶體：模型直接載入 512GB 統一記憶體
無需 Rosetta：ARM64 原生，比 llama.cpp 更快

安裝

# 下載最新版本
# https://github.com/open-mlx/oMLX/releases

# 或通過 Homebrew（如果有 cask）
brew install --cask omlx

下載 .dmg 後拖入 Applications。

模型導入

oMLX 支援 .safetensors 和 MLX 格式的模型。

從 HuggingFace 下載

# 安裝 MLX CLI
pip install mlx-lm

# 下載模型（自動轉換為 MLX 格式）
mlx_lm.convert --hf-path Qwen/Qwen2.5-7B-Instruct --mlx-path ~/models/qwen2.5-7b-mlx

# 量化（減少記憶體使用）
mlx_lm.convert --hf-path Qwen/Qwen2.5-7B-Instruct --mlx-path ~/models/qwen2.5-7b-q4 -q

模型	MLX 大小	記憶體	適合場景
Qwen 2.5 7B Q4	4.5GB	8GB	日常問答
Qwen 2.5 32B Q4	18GB	24GB	代碼生成
Qwen 2.5 72B Q4	40GB	48GB	深度分析
DeepSeek R1 70B Q4	40GB	48GB	推理
Llama 3.1 70B Q4	40GB	48GB	通用

配置與啟動

在 oMLX 應用中：

Settings → Models Directory：指向 ~/models/
選擇模型：從下拉選單選擇已下載的模型
調整參數：
- Temperature: 0.7（創意）→ 0.1（精確）
- Top-P: 0.9
- Max Tokens: 4096
- Context Length: 32768

API Server 模式

oMLX 提供 OpenAI 兼容的 API：

# 啟動 API Server
mlx_lm.server --model ~/models/qwen2.5-7b-mlx --port 8080

然後在 Claude Code 中使用：

{
  "apiKey": "not-needed",
  "baseURL": "http://localhost:8080/v1",
  "model": "qwen2.5-7b-mlx"
}

效能對比（M3 Ultra）

模型	oMLX (MLX)	Ollama (llama.cpp)	差異
Qwen 2.5 7B Q4	45 t/s	38 t/s	+18%
Qwen 2.5 32B Q4	18 t/s	14 t/s	+29%
Qwen 2.5 72B Q4	8 t/s	6 t/s	+33%

MLX 在大模型上的優勢更明顯，因為它更有效地利用 GPU。

oMLX vs Ollama vs LM Studio

特性	oMLX	Ollama	LM Studio
底層框架	Apple MLX	llama.cpp	llama.cpp + MLX
API 兼容	✅ OpenAI	✅ OpenAI	✅ OpenAI
GUI	✅	❌	✅
模型格式	MLX, safetensors	GGUF	GGUF, MLX
Metal 加速	原生	通過 Metal	混合
速度（大模型）	最快	中等	中等

常見問題

MLX 模型佔用空間太大？

使用量化：

mlx_lm.convert --hf-path model-name --mlx-path output-dir -q --q-bits 4

找不到 MLX 格式的模型？

在 HuggingFace 搜索 mlx-community，大部分流行模型都有 MLX 版本。

oMLX vs 直接用 MLX CLI？

oMLX 提供 GUI 和更方便的模型管理，適合日常使用。MLX CLI 更適合腳本和自動化。

oMLX 是什麼？

安裝

模型導入

從 HuggingFace 下載

推薦模型

配置與啟動

API Server 模式

效能對比（M3 Ultra）

oMLX vs Ollama vs LM Studio

常見問題

MLX 模型佔用空間太大？

找不到 MLX 格式的模型？

oMLX vs 直接用 MLX CLI？

推薦閱讀

相關文章

Claude Code 深度使用指南

DeepSeek V4 Flash / V4 Pro API 最佳實踐與效能對比

其他推理框架對比：llama.cpp、MLX、ExLlamaV2 完整指南

技能資訊