API 服务器
API 服务器将 hermes-agent 暴露为兼容 OpenAI 的 HTTP 端点。任何支持 OpenAI 格式的前端——Open WebUI、LobeChat、LibreChat、NextChat、ChatBox 以及数百个其他应用——都可以连接到 hermes-agent 并将其用作后端。
你的代理使用其完整工具集(终端、文件操作、网页搜索、记忆、技能)处理请求并返回最终响应。在流式传输时,工具进度指示器会内联显示,因此前端可以实时查看代理正在执行的操作。
快速开始
1. 启用 API 服务器
在 ~/.hermes/.env 中添加:
API_SERVER_ENABLED=true
API_SERVER_KEY=change-me-local-dev
# 可选:仅在浏览器需要直接调用 Hermes 时使用
# API_SERVER_CORS_ORIGINS=http://localhost:30002. 启动网关
hermes gateway你将看到:
[API Server] API server listening on http://127.0.0.1:8642
3. 连接前端
将任何兼容 OpenAI 的客户端指向 http://localhost:8642/v1:
# 使用 curl 测试
curl http://localhost:8642/v1/chat/completions \
-H "Authorization: Bearer change...dev" \
-H "Content-Type: application/json" \
-d '{"model": "hermes-agent", "messages": [{"role": "user", "content": "Hello!"}]}'或者连接 Open WebUI、LobeChat 或任何其他前端——查看 Open WebUI 集成指南 获取详细步骤。
端点
POST /v1/chat/completions
标准的 OpenAI Chat Completions 格式。无状态——完整对话通过 messages 数组包含在每个请求中。
请求:
{
"model": "hermes-agent",
"messages": [
{"role": "system", "content": "你是一名 Python 专家。"},
{"role": "user", "content": "编写一个斐波那契函数"}
],
"stream": false
}响应:
{
"id": "chatcmpl-abc123",
"object": "chat.completion",
"created": 1710000000,
"model": "hermes-agent",
"choices": [{
"index": 0,
"message": {"role": "assistant", "content": "这是一个斐波那契函数..."},
"finish_reason": "stop"
}],
"usage": {"prompt_tokens": 50, "completion_tokens": 200, "total_tokens": 250}
}内联图像输入: 用户消息可以将 content 作为 text 和 image_url 部分的数组发送。支持远程 http(s) URL 和 data:image/... URL:
{
"model": "hermes-agent",
"messages": [
{
"role": "user",
"content": [
{"type": "text", "text": "这张图片里有什么?"},
{"type": "image_url", "image_url": {"url": "https://example.com/cat.png", "detail": "high"}}
]
}
]
}上传的文件(file / input_file / file_id)和非图像 data: URL 会返回 400 unsupported_content_type。
流式传输("stream": true):返回服务器发送事件(SSE),包含逐 token 的响应片段。对于 Chat Completions,流使用标准的 chat.completion.chunk 事件,加上 Hermes 自定义的 hermes.tool.progress 事件用于工具启动的 UX。对于 Responses,流使用 OpenAI Responses 事件类型,如 response.created、response.output_text.delta、response.output_item.added、response.output_item.done 和 response.completed。
流中的工具进度:
- Chat Completions:Hermes 发出
event: hermes.tool.progress事件,用于工具启动可见性,而不会污染持久化的助手文本。 - Responses:Hermes 在 SSE 流期间发出规范原生的
function_call和function_call_output输出项,因此客户端可以实时渲染结构化的工具 UI。
POST /v1/responses
OpenAI Responses API 格式。通过 previous_response_id 支持服务端对话状态——服务器存储完整的对话历史(包括工具调用和结果),因此多轮上下文得以保留,无需客户端管理。
请求:
{
"model": "hermes-agent",
"input": "我的项目中有哪些文件?",
"instructions": "你是一名有用的编码助手。",
"store": true
}响应:
{
"id": "resp_abc123",
"object": "response",
"status": "completed",
"model": "hermes-agent",
"output": [
{"type": "function_call", "name": "terminal", "arguments": "{\"command\": \"ls\"}", "call_id": "call_1"},
{"type": "function_call_output", "call_id": "call_1", "output": "README.md src/ tests/"},
{"type": "message", "role": "assistant", "content": [{"type": "output_text", "text": "你的项目包含..."}]}
],
"usage": {"input_tokens": 50, "output_tokens": 200, "total_tokens": 250}
}内联图像输入: input[].content 可以包含 input_text 和 input_image 部分。支持远程 URL 和 data:image/... URL:
{
"model": "hermes-agent",
"input": [
{
"role": "user",
"content": [
{"type": "input_text", "text": "描述这张截图。"},
{"type": "input_image", "image_url": "data:image/png;base64,iVBORw0K..."}
]
}
]
}上传的文件(input_file / file_id)和非图像 data: URL 会返回 400 unsupported_content_type。
多轮对话与 previous_response_id
链式响应以在多次对话中维护完整上下文(包括工具调用):
{
"input": "现在显示 README",
"previous_response_id": "resp_abc123"
}服务器从存储的响应链中重建完整对话——所有之前的工具调用和结果都被保留。链式请求还共享同一个会话,因此多轮对话在仪表盘和会话历史中显示为单个条目。
命名对话
使用 conversation 参数而非跟踪响应 ID:
{"input": "你好", "conversation": "my-project"}
{"input": "src/ 里有什么?", "conversation": "my-project"}
{"input": "运行测试", "conversation": "my-project"}服务器自动链接到该对话中的最新响应。类似于网关会话的 /title 命令。
GET /v1/responses/{id}
按 ID 检索之前存储的响应。
DELETE /v1/responses/{id}
删除已存储的响应。
GET /v1/models
列出代理作为可用模型。广告的模型名称默认为配置文件名称(对于默认配置文件为 hermes-agent)。大多数前端需要此端点进行模型发现。
GET /v1/capabilities
返回 API 服务器稳定接口的机器可读描述,供外部 UI、编排器和插件桥使用。
{
"object": "hermes.api_server.capabilities",
"platform": "hermes-agent",
"model": "hermes-agent",
"auth": {"type": "bearer", "required": true},
"features": {
"chat_completions": true,
"responses_api": true,
"run_submission": true,
"run_status": true,
"run_events_sse": true,
"run_stop": true
}
}在集成仪表盘、浏览器 UI 或控制面时使用此端点,以便它们能够发现正在运行的 Hermes 版本是否支持 runs、流式传输、取消和会话连续性,而无需依赖私有的 Python 内部实现。
GET /health
健康检查。返回 {"status": "ok"}。对于期望 /v1/ 前缀的兼容 OpenAI 的客户端,也可在 GET /v1/health 使用。
GET /health/detailed
扩展健康检查,还报告活动会话、正在运行的代理和资源使用情况。适用于监控/可观测性工具。
Runs API(流式友好的替代方案)
除了 /v1/chat/completions 和 /v1/responses,服务器还公开了一个 runs API,用于需要客户端订阅进度事件而非自行管理流式传输的长时间会话。
POST /v1/runs
创建新的代理运行。返回一个 run_id,可用于订阅进度事件。
{
"run_id": "run_abc123",
"status": "started"
}Runs 接受简单的 input 字符串和可选的 session_id、instructions、conversation_history 或 previous_response_id。当提供 session_id 时,Hermes 会在运行状态中显示它,以便外部 UI 可以将 runs 与其自己的对话 ID 关联起来。
GET /v1/runs/{run_id}
轮询当前运行状态。这对于需要状态但不想保持 SSE 连接打开的仪表盘,或者在导航后重新连接的 UI 非常有用。
{
"object": "hermes.run",
"run_id": "run_abc123",
"status": "completed",
"session_id": "space-session",
"model": "hermes-agent",
"output": "完成。",
"usage": {"input_tokens": 50, "output_tokens": 200, "total_tokens": 250}
}状态在终端状态(completed、failed 或 cancelled)后会短暂保留,以便轮询和 UI 协调。
GET /v1/runs/{run_id}/events
运行的工具调用进度、token 增量和生命周期事件的服务器发送事件(SSE)流。专为希望在不丢失状态的情况下进行附加/分离的仪表盘和胖客户端设计。
POST /v1/runs/{run_id}/stop
中断正在进行的代理轮次。端点立即返回 {"status": "stopping"},而 Hermes 要求活动代理在下一个安全中断点停止。
Jobs API(后台定时工作)
服务器公开了一个轻量级的 jobs CRUD 接口,用于从远程客户端管理定时/后台代理运行。所有端点都受相同的 bearer 认证保护。
GET /api/jobs
列出所有定时任务。
POST /api/jobs
创建新的定时任务。请求体接受与 hermes cron 相同的参数——提示词、调度、技能、提供商覆盖、投递目标。
GET /api/jobs/{job_id}
获取单个任务的定义和上次运行状态。
PATCH /api/jobs/{job_id}
更新现有任务的字段(提示词、调度等)。部分更新会被合并。
DELETE /api/jobs/{job_id}
删除任务。同时取消正在进行的运行。
POST /api/jobs/{job_id}/pause
暂停任务而不删除它。下次计划运行的时间戳会被挂起,直到恢复。
POST /api/jobs/{job_id}/resume
恢复之前暂停的任务。
POST /api/jobs/{job_id}/run
立即触发任务运行,不受调度限制。
系统提示词处理
当前端发送 system 消息(Chat Completions)或 instructions 字段(Responses API)时,hermes-agent 会将其叠加在其核心系统提示词之上。你的代理保留所有工具、记忆和技能——前端的系统提示词仅添加额外指令。
这意味着你可以为每个前端自定义行为,而不会失去能力:
- Open WebUI 系统提示词:“你是一名 Python 专家。始终包含类型注解。”
- 代理仍然拥有终端、文件工具、网页搜索、记忆等。
身份认证
通过 Authorization 标头的 Bearer token 认证:
Authorization: Bearer ***
通过 API_SERVER_KEY 环境变量配置密钥。如果需要浏览器直接调用 Hermes,还需设置 API_SERVER_CORS_ORIGINS 为显式的允许列表。
:::warning 安全
API 服务器提供对 hermes-agent 完整工具集的访问,包括终端命令。当绑定到非回环地址(如 0.0.0.0)时,必须设置 API_SERVER_KEY。同时保持 API_SERVER_CORS_ORIGINS 范围狭窄以控制浏览器访问。
默认绑定地址(127.0.0.1)仅供本地使用。浏览器访问默认禁用;仅为显式信任的来源启用。
:::
配置
环境变量
| 变量 | 默认值 | 描述 |
|---|---|---|
API_SERVER_ENABLED | false | 启用 API 服务器 |
API_SERVER_PORT | 8642 | HTTP 服务器端口 |
API_SERVER_HOST | 127.0.0.1 | 绑定地址(默认仅本地主机) |
API_SERVER_KEY | (无) | 用于认证的 Bearer token |
API_SERVER_CORS_ORIGINS | (无) | 逗号分隔的允许浏览器来源 |
API_SERVER_MODEL_NAME | (配置文件名称) | /v1/models 上的模型名称。默认为配置文件名称,对于默认配置文件为 hermes-agent。 |
config.yaml
# 暂不支持——请使用环境变量。
# config.yaml 支持将在未来版本中提供。安全标头
所有响应都包含安全标头:
X-Content-Type-Options: nosniff——防止 MIME 类型嗅探Referrer-Policy: no-referrer——防止来源泄露
CORS
API 服务器默认不启用浏览器 CORS。
对于直接浏览器访问,设置显式的允许列表:
API_SERVER_CORS_ORIGINS=http://localhost:3000,http://127.0.0.1:3000当 CORS 启用时:
- 预检响应包含
Access-Control-Max-Age: 600(10 分钟缓存) - SSE 流式响应包含 CORS 标头,因此浏览器 EventSource 客户端正常工作
Idempotency-Key是允许的请求标头——客户端可以发送它以进行去重(响应按 key 缓存 5 分钟)
大多数有文档的前端(如 Open WebUI)是服务器到服务器连接,完全不需要 CORS。
兼容前端
任何支持 OpenAI API 格式的前端都可工作。经过测试/记录在案的集成:
| 前端 | Stars | 连接方式 |
|---|---|---|
| Open WebUI | 126k | 有完整指南 |
| LobeChat | 73k | 自定义提供商端点 |
| LibreChat | 34k | 在 librechat.yaml 中自定义端点 |
| AnythingLLM | 56k | 通用 OpenAI 提供商 |
| NextChat | 87k | BASE_URL 环境变量 |
| ChatBox | 39k | API Host 设置 |
| Jan | 26k | 远程模型配置 |
| HF Chat-UI | 8k | OPENAI_BASE_URL |
| big-AGI | 7k | 自定义端点 |
| OpenAI Python SDK | — | OpenAI(base_url="http://localhost:8642/v1") |
| curl | — | 直接 HTTP 请求 |
使用配置文件的多用户设置
要给多个用户各自独立的 Hermes 实例(独立的配置、记忆、技能),请使用配置文件:
# 为每个用户创建一个配置文件
hermes profile create alice
hermes profile create bob
# 配置每个配置文件的 API 服务器在不同端口。API_SERVER_* 是环境变量
# (不是 config.yaml 的键),因此将它们写入每个配置文件的 .env:
cat >> ~/.hermes/profiles/alice/.env <<EOF
API_SERVER_ENABLED=true
API_SERVER_PORT=8643
API_SERVER_KEY=alice-secret
EOF
cat >> ~/.hermes/profiles/bob/.env <<EOF
API_SERVER_ENABLED=true
API_SERVER_PORT=8644
API_SERVER_KEY=bob-secret
EOF
# 启动每个配置文件的网关
hermes -p alice gateway &
hermes -p bob gateway &每个配置文件的 API 服务器会自动将配置文件名称作为模型 ID 展示:
http://localhost:8643/v1/models→ 模型alicehttp://localhost:8644/v1/models→ 模型bob
在 Open WebUI 中,将每个作为单独连接添加。模型下拉列表显示 alice 和 bob 作为不同模型,每个由完全隔离的 Hermes 实例支持。详情请参见 Open WebUI 指南。
限制
- 响应存储——存储的响应(用于
previous_response_id)持久化在 SQLite 中,并在网关重启后保留。最多 100 条存储响应(LRU 淘汰)。 - 不支持文件上传——
/v1/chat/completions和/v1/responses都支持内联图像,但不支持通过 API 上传文件(file、input_file、file_id)和非图像文档输入。 - 模型字段是装饰性的——请求中的
model字段会被接受,但实际使用的 LLM 模型是在服务端 config.yaml 中配置的。
代理模式
API 服务器也充当网关代理模式的后端。当另一个 Hermes 网关实例配置了指向此 API 服务器的 GATEWAY_PROXY_URL 时,它会将所有消息转发到这里,而不是运行自己的代理。这支持拆分部署——例如,一个处理 Matrix E2EE 的 Docker 容器将消息中继到主机端的代理。
完整设置指南请参见 Matrix 代理模式。