為什麼放棄 Ollama?
Ollama 曾經是本地 LLM 的首選,但最近幾個版本出現問題:
- 部分模型強制跑雲端:本該是本地的模型被導向 Ollama 雲端服務,違背「本地運行」初衷
- 更新策略不可控:自動更新可能改變模型行為
- 隱私不確定性:不確定哪些數據被發送到 Ollama 伺服器
因此改用 oMLX — Apple 原生 MLX 框架的桌面應用,真正本地,零雲端依賴。
oMLX 優勢
| 特性 | Ollama | oMLX |
|---|---|---|
| 框架 | llama.cpp (通過 Metal) | Apple MLX (原生) |
| 雲端依賴 | 部分模型強制雲端 | ❌ 完全離線 |
| 速度 (M3 Ultra) | 中等 | 快 18-33% |
| API 兼容 | ✅ OpenAI | ✅ OpenAI |
| 模型格式 | GGUF only | MLX + safetensors |
| 隱私 | 不確定 | ✅ 100% 本地 |
安裝
# 下載 oMLX
# https://github.com/open-mlx/oMLX/releases
brew install --cask omlx
# 安裝 MLX CLI
pip install mlx-lm
部署 Qwen3 Coder Next
下載並轉換
# 方法 1:直接從 mlx-community 下載(推薦)
# 打開 oMLX → Search → 搜索 "Qwen3-Coder-Next-MLX"
# 方法 2:手動下載並轉換
mlx_lm.convert \
--hf-path Qwen/Qwen3-Coder-Next \
--mlx-path ~/models/qwen3-coder-next \
-q --q-bits 4
啟動 API Server
mlx_lm.server \
--model ~/models/qwen3-coder-next \
--port 8080 \
--host 0.0.0.0
Claude Code 本地實例配置
// ~/.claude-local.json
{
"apiKey": "not-needed",
"baseURL": "http://localhost:8080/v1",
"model": "qwen3-coder-next"
}
claude --config ~/.claude-local.json --cwd ~/private-projects
OpenClaw 本地配置
{
"models": {
"providers": {
"local-coder": {
"api_key": "not-needed",
"base_url": "http://localhost:8080/v1",
"model": "qwen3-coder-next"
}
},
"routing": {
"rules": [
{"pattern": "private|secret|key|password", "provider": "local-coder"}
]
}
}
}
效能數據 (M3 Ultra)
| 模型 | oMLX | Ollama (已不用) |
|---|---|---|
| Qwen3 Coder Next Q4 | 55 t/s | ~42 t/s (est.) |
| Qwen 2.5 32B Q4 | 18 t/s | 14 t/s |
| Qwen 2.5 72B Q4 | 8 t/s | 6 t/s |