LM Studio 是什麼?
LM Studio 是一個桌面 GUI 應用,讓你在本地下載、管理、運行 LLM,無需命令列。支援 GGUF 和 MLX 格式的模型。
- 圖形界面:無需終端操作,點擊即可運行模型
- 內置模型下載:直接從 HuggingFace 搜索和下載
- OpenAI 兼容 API:啟動後自動提供
localhost:1234/v1端點 - 支援 Apple Silicon GPU:M 系列芯片原生加速
安裝
# 官網下載
# https://lmstudio.ai/
# 或 Homebrew
brew install --cask lm-studio
模型下載與管理
步驟
- 打開 LM Studio → 點擊左側 Search 圖標
- 搜索模型,例如
qwen2.5-coder-7b - 選擇 GGUF 格式(Q4_K_M 量化最平衡)
- 點擊 Download
推薦模型
| 模型 | 大小 | 推薦量化 | 用途 |
|---|---|---|---|
| Qwen 2.5 Coder 7B | 4.7GB | Q4_K_M | 代碼 |
| Qwen 2.5 32B | 19GB | Q4_K_M | 通用 |
| DeepSeek Coder V2 | 15GB | Q4_K_M | 代碼 |
| Llama 3.1 8B | 4.9GB | Q4_K_M | 英文 |
| Mistral Nemo 12B | 7GB | Q4_K_M | 快速 |
運行模型
- 點擊左側 Chat 圖標
- 從頂部下拉選單選擇已下載的模型
- 調整右側參數:
- GPU Offload:設為 Max(全部載入 GPU)
- Context Length:8192(日常)/ 32768(長文)
- Temperature:0.7
- 模型載入後即可對話
API Server 模式
啟動 Server
點擊左側 Local Server → Start Server
預設端口:http://localhost:1234
在 Claude Code 中使用
{
"apiKey": "not-needed",
"baseURL": "http://localhost:1234/v1",
"model": "qwen2.5-coder-7b-instruct"
}
Python 調用
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:1234/v1",
api_key="not-needed"
)
response = client.chat.completions.create(
model="qwen2.5-coder-7b-instruct",
messages=[{"role": "user", "content": "Write a Python function to sort a list"}]
)
print(response.choices[0].message.content)
MLX vs GGUF 格式選擇
LM Studio 同時支援 GGUF 和 MLX 格式:
| 特性 | GGUF | MLX |
|---|---|---|
| 速度 (M3 Ultra) | 快 | 更快 |
| 模型庫豐富度 | 極豐富 | 較少 |
| 量化選項 | Q2-Q8, K-quants | Q4, Q8 |
| 跨平台 | ✅ | Apple Silicon only |
| 推薦場景 | 通用 | M 系列芯片最大化效能 |
建議:有 MLX 版本時優先選 MLX,否則用 GGUF Q4_K_M。
進階配置
多模型同時運行
# Terminal 1: 通用模型
curl http://localhost:1234/v1/chat/completions -d '{"model":"qwen2.5-32b","messages":[...]}'
# Terminal 2: 代碼模型 (不同端口)
# 在 LM Studio 啟動第二個 server,端口改為 1235
curl http://localhost:1235/v1/chat/completions -d '{"model":"qwen2.5-coder-7b","messages":[...]}'
GPU 層數調整
在 LM Studio 右側面板調整 GPU Offload:
- Max:全部載入 GPU(最快,需足夠 VRAM/統一記憶體)
- Auto:自動平衡
- 手動:指定層數(適合同時運行多個模型)
LM Studio vs oMLX vs Ollama 對比
| 特性 | LM Studio | oMLX | Ollama |
|---|---|---|---|
| 界面 | GUI | GUI | CLI |
| 模型下載 | 內置 | HuggingFace | ollama pull |
| 模型格式 | GGUF + MLX | MLX | GGUF |
| API 兼容 | ✅ | ✅ | ✅ |
| GPU 加速 | ✅ | ✅ (MLX) | ✅ (Metal) |
| 新手友好度 | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ |