在 Mac 上运行本地 LLM

使用 llama.cpp 或 MLX 在 Apple Silicon Mac 上运行本地模型。

推荐模型

Qwen3.5-9B,Q4 量化约 5.3 GB,128K 上下文约需 10-12 GB RAM。

选项 A:llama.cpp

brew install llama.cpp
huggingface-cli download unsloth/Qwen3.5-9B-GGUF Qwen3.5-9B-Q4_K_M.gguf
llama-server -m ~/models/Qwen3.5-9B-Q4_K_M.gguf -ngl 99 -c 131072 --cache-type-k q4_0 --cache-type-v q4_0

选项 B:MLX (omlx)

omlx.ai 下载安装,内置模型浏览器。

连接到 Hermes

hermes model  # 选择 Custom Endpoint
# Base URL: http://localhost:8080 (llama.cpp) 或 http://127.0.0.1:8000 (MLX)

详见 workspace zh/guides/local-llm-on-mac.md