A
返回 工具
工具2026/05/10 君澤智庫研究員 Bryan Chan7 分鐘閱讀

LM Studio 安裝與使用指南:GUI 本地 LLM 管理

LM Studio 完整指南 — 在 Mac 上通過圖形界面下載、管理、運行本地 LLM,支援 GGUF 和 MLX 格式,提供 OpenAI 兼容 API。

LM Studio 是什麼?

LM Studio 是一個桌面 GUI 應用,讓你在本地下載、管理、運行 LLM,無需命令列。支援 GGUF 和 MLX 格式的模型。

  • 圖形界面:無需終端操作,點擊即可運行模型
  • 內置模型下載:直接從 HuggingFace 搜索和下載
  • OpenAI 兼容 API:啟動後自動提供 localhost:1234/v1 端點
  • 支援 Apple Silicon GPU:M 系列芯片原生加速

安裝

# 官網下載
# https://lmstudio.ai/

# 或 Homebrew
brew install --cask lm-studio

模型下載與管理

步驟

  1. 打開 LM Studio → 點擊左側 Search 圖標
  2. 搜索模型,例如 qwen2.5-coder-7b
  3. 選擇 GGUF 格式(Q4_K_M 量化最平衡)
  4. 點擊 Download

推薦模型

模型 大小 推薦量化 用途
Qwen 2.5 Coder 7B 4.7GB Q4_K_M 代碼
Qwen 2.5 32B 19GB Q4_K_M 通用
DeepSeek Coder V2 15GB Q4_K_M 代碼
Llama 3.1 8B 4.9GB Q4_K_M 英文
Mistral Nemo 12B 7GB Q4_K_M 快速

運行模型

  1. 點擊左側 Chat 圖標
  2. 從頂部下拉選單選擇已下載的模型
  3. 調整右側參數:
    • GPU Offload:設為 Max(全部載入 GPU)
    • Context Length:8192(日常)/ 32768(長文)
    • Temperature:0.7
  4. 模型載入後即可對話

API Server 模式

啟動 Server

點擊左側 Local ServerStart Server

預設端口:http://localhost:1234

在 Claude Code 中使用

{
  "apiKey": "not-needed",
  "baseURL": "http://localhost:1234/v1",
  "model": "qwen2.5-coder-7b-instruct"
}

Python 調用

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:1234/v1",
    api_key="not-needed"
)

response = client.chat.completions.create(
    model="qwen2.5-coder-7b-instruct",
    messages=[{"role": "user", "content": "Write a Python function to sort a list"}]
)

print(response.choices[0].message.content)

MLX vs GGUF 格式選擇

LM Studio 同時支援 GGUF 和 MLX 格式:

特性 GGUF MLX
速度 (M3 Ultra) 更快
模型庫豐富度 極豐富 較少
量化選項 Q2-Q8, K-quants Q4, Q8
跨平台 Apple Silicon only
推薦場景 通用 M 系列芯片最大化效能

建議:有 MLX 版本時優先選 MLX,否則用 GGUF Q4_K_M。


進階配置

多模型同時運行

# Terminal 1: 通用模型
curl http://localhost:1234/v1/chat/completions -d '{"model":"qwen2.5-32b","messages":[...]}'

# Terminal 2: 代碼模型 (不同端口)
# 在 LM Studio 啟動第二個 server,端口改為 1235
curl http://localhost:1235/v1/chat/completions -d '{"model":"qwen2.5-coder-7b","messages":[...]}'

GPU 層數調整

在 LM Studio 右側面板調整 GPU Offload

  • Max:全部載入 GPU(最快,需足夠 VRAM/統一記憶體)
  • Auto:自動平衡
  • 手動:指定層數(適合同時運行多個模型)

LM Studio vs oMLX vs Ollama 對比

特性 LM Studio oMLX Ollama
界面 GUI GUI CLI
模型下載 內置 HuggingFace ollama pull
模型格式 GGUF + MLX MLX GGUF
API 兼容
GPU 加速 ✅ (MLX) ✅ (Metal)
新手友好度 ⭐⭐⭐⭐⭐ ⭐⭐⭐ ⭐⭐⭐

推薦閱讀