在 Mac 上运行本地 LLM
使用 llama.cpp 或 MLX 在 Apple Silicon Mac 上运行本地模型。
推荐模型
Qwen3.5-9B,Q4 量化约 5.3 GB,128K 上下文约需 10-12 GB RAM。
选项 A:llama.cpp
brew install llama.cpp
huggingface-cli download unsloth/Qwen3.5-9B-GGUF Qwen3.5-9B-Q4_K_M.gguf
llama-server -m ~/models/Qwen3.5-9B-Q4_K_M.gguf -ngl 99 -c 131072 --cache-type-k q4_0 --cache-type-v q4_0选项 B:MLX (omlx)
从 omlx.ai 下载安装,内置模型浏览器。
连接到 Hermes
hermes model # 选择 Custom Endpoint
# Base URL: http://localhost:8080 (llama.cpp) 或 http://127.0.0.1:8000 (MLX)详见 workspace zh/guides/local-llm-on-mac.md