A
返回 工具
工具2026/05/10 君澤智庫研究員 Bryan Chan5 分鐘閱讀

oMLX + Qwen3 Coder Next 本地部署指南(取代 Ollama)

在 M3 Ultra 上用 oMLX 原生運行 Qwen3 Coder Next,完整取代 Ollama — 為什麼放棄 Ollama、oMLX 優勢、安裝步驟。

為什麼放棄 Ollama?

Ollama 曾經是本地 LLM 的首選,但最近幾個版本出現問題:

  • 部分模型強制跑雲端:本該是本地的模型被導向 Ollama 雲端服務,違背「本地運行」初衷
  • 更新策略不可控:自動更新可能改變模型行為
  • 隱私不確定性:不確定哪些數據被發送到 Ollama 伺服器

因此改用 oMLX — Apple 原生 MLX 框架的桌面應用,真正本地,零雲端依賴。


oMLX 優勢

特性 Ollama oMLX
框架 llama.cpp (通過 Metal) Apple MLX (原生)
雲端依賴 部分模型強制雲端 ❌ 完全離線
速度 (M3 Ultra) 中等 快 18-33%
API 兼容 ✅ OpenAI ✅ OpenAI
模型格式 GGUF only MLX + safetensors
隱私 不確定 ✅ 100% 本地

安裝

# 下載 oMLX
# https://github.com/open-mlx/oMLX/releases
brew install --cask omlx

# 安裝 MLX CLI
pip install mlx-lm

部署 Qwen3 Coder Next

下載並轉換

# 方法 1:直接從 mlx-community 下載(推薦)
# 打開 oMLX → Search → 搜索 "Qwen3-Coder-Next-MLX"

# 方法 2:手動下載並轉換
mlx_lm.convert \
  --hf-path Qwen/Qwen3-Coder-Next \
  --mlx-path ~/models/qwen3-coder-next \
  -q --q-bits 4

啟動 API Server

mlx_lm.server \
  --model ~/models/qwen3-coder-next \
  --port 8080 \
  --host 0.0.0.0

Claude Code 本地實例配置

// ~/.claude-local.json
{
  "apiKey": "not-needed",
  "baseURL": "http://localhost:8080/v1",
  "model": "qwen3-coder-next"
}
claude --config ~/.claude-local.json --cwd ~/private-projects

OpenClaw 本地配置

{
  "models": {
    "providers": {
      "local-coder": {
        "api_key": "not-needed",
        "base_url": "http://localhost:8080/v1",
        "model": "qwen3-coder-next"
      }
    },
    "routing": {
      "rules": [
        {"pattern": "private|secret|key|password", "provider": "local-coder"}
      ]
    }
  }
}

效能數據 (M3 Ultra)

模型 oMLX Ollama (已不用)
Qwen3 Coder Next Q4 55 t/s ~42 t/s (est.)
Qwen 2.5 32B Q4 18 t/s 14 t/s
Qwen 2.5 72B Q4 8 t/s 6 t/s

相關文章