LM Studio 安裝與使用指南：GUI 本地 LLM 管理

LM Studio 是什麼？

LM Studio 是一個桌面 GUI 應用，讓你在本地下載、管理、運行 LLM，無需命令列。支援 GGUF 和 MLX 格式的模型。

圖形界面：無需終端操作，點擊即可運行模型
內置模型下載：直接從 HuggingFace 搜索和下載
OpenAI 兼容 API：啟動後自動提供 localhost:1234/v1 端點
支援 Apple Silicon GPU：M 系列芯片原生加速

安裝

# 官網下載
# https://lmstudio.ai/

# 或 Homebrew
brew install --cask lm-studio

模型下載與管理

步驟

打開 LM Studio → 點擊左側 Search 圖標
搜索模型，例如 qwen2.5-coder-7b
選擇 GGUF 格式（Q4_K_M 量化最平衡）
點擊 Download

模型	大小	推薦量化	用途
Qwen 2.5 Coder 7B	4.7GB	Q4_K_M	代碼
Qwen 2.5 32B	19GB	Q4_K_M	通用
DeepSeek Coder V2	15GB	Q4_K_M	代碼
Llama 3.1 8B	4.9GB	Q4_K_M	英文
Mistral Nemo 12B	7GB	Q4_K_M	快速

運行模型

點擊左側 Chat 圖標
從頂部下拉選單選擇已下載的模型
調整右側參數：
- GPU Offload：設為 Max（全部載入 GPU）
- Context Length：8192（日常）/ 32768（長文）
- Temperature：0.7
模型載入後即可對話

API Server 模式

啟動 Server

點擊左側 Local Server → Start Server

預設端口：http://localhost:1234

在 Claude Code 中使用

{
  "apiKey": "not-needed",
  "baseURL": "http://localhost:1234/v1",
  "model": "qwen2.5-coder-7b-instruct"
}

Python 調用

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:1234/v1",
    api_key="not-needed"
)

response = client.chat.completions.create(
    model="qwen2.5-coder-7b-instruct",
    messages=[{"role": "user", "content": "Write a Python function to sort a list"}]
)

print(response.choices[0].message.content)

MLX vs GGUF 格式選擇

LM Studio 同時支援 GGUF 和 MLX 格式：

特性	GGUF	MLX
速度 (M3 Ultra)	快	更快
模型庫豐富度	極豐富	較少
量化選項	Q2-Q8, K-quants	Q4, Q8
跨平台	✅	Apple Silicon only
推薦場景	通用	M 系列芯片最大化效能

建議：有 MLX 版本時優先選 MLX，否則用 GGUF Q4_K_M。

進階配置

多模型同時運行

# Terminal 1: 通用模型
curl http://localhost:1234/v1/chat/completions -d '{"model":"qwen2.5-32b","messages":[...]}'

# Terminal 2: 代碼模型 (不同端口)
# 在 LM Studio 啟動第二個 server，端口改為 1235
curl http://localhost:1235/v1/chat/completions -d '{"model":"qwen2.5-coder-7b","messages":[...]}'

GPU 層數調整

在 LM Studio 右側面板調整 GPU Offload：

Max：全部載入 GPU（最快，需足夠 VRAM/統一記憶體）
Auto：自動平衡
手動：指定層數（適合同時運行多個模型）

LM Studio vs oMLX vs Ollama 對比

特性	LM Studio	oMLX	Ollama
界面	GUI	GUI	CLI
模型下載	內置	HuggingFace	`ollama pull`
模型格式	GGUF + MLX	MLX	GGUF
API 兼容	✅	✅	✅
GPU 加速	✅	✅ (MLX)	✅ (Metal)
新手友好度	⭐⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐

LM Studio 是什麼？

安裝

模型下載與管理

步驟

推薦模型

運行模型

API Server 模式

啟動 Server

在 Claude Code 中使用

Python 調用

MLX vs GGUF 格式選擇

進階配置

多模型同時運行

GPU 層數調整

LM Studio vs oMLX vs Ollama 對比

推薦閱讀

相關文章

Claude Code 深度使用指南

DeepSeek V4 Flash / V4 Pro API 最佳實踐與效能對比

其他推理框架對比：llama.cpp、MLX、ExLlamaV2 完整指南

技能資訊