MinerU PDF 解析 API
PDF/文档结构化解析接口,支持文本、表格、图片、公式识别
两种 API 对比
| 特性 | 精准解析 API | Agent 轻量解析 API |
|---|---|---|
| Token | 需要 | 无需(IP 限频) |
| 接口 | /api/v4/extract/task | /api/v1/agent/parse/url |
| 模型 | pipeline / vlm / MinerU-HTML | 固定 pipeline 轻量模型 |
| 文件大小 | ≤ 200MB | ≤ 10MB |
| 页数 | ≤ 200 页 | ≤ 20 页 |
| 批量 | ✅ ≤ 200 个 | ❌ 单文件 |
| 输出格式 | Zip(md/json/docx/html/latex) | 仅 Markdown(CDN 链接) |
| 调用方式 | 异步(提交→轮询) | 异步(提交→轮询) |
精准解析 API
核心请求头
Content-Type: application/json
Authorization: Bearer {token}
1. 单文件解析
创建任务
- 接口:
POST https://mineru.net/api/v4/extract/task - 请求体:
| 参数 | 必选 | 说明 |
|---|---|---|
| url | 是 | 文件 URL(PDF/Doc/Docx/PPT/图片/HTML) |
| model_version | 否 | pipeline(默认) / vlm / MinerU-HTML |
| is_ocr | 否 | 是否 OCR,默认 false |
| enable_formula | 否 | 公式识别,默认 true |
| enable_table | 否 | 表格识别,默认 true |
| language | 否 | 文档语言,默认 ch |
| data_id | 否 | 自定义业务标识(≤128 字符) |
| callback | 否 | 回调通知 URL(POST) |
| extra_formats | 否 | 额外格式:["docx","html","latex"] |
| page_ranges | 否 | 页码范围,如 "2,4-6" 或 "2--2" |
轮询结果
- 接口:
GET https://mineru.net/api/v4/extract/task/{task_id}
state 取值:done / pending / running / failed / converting
完成时返回 full_zip_url(Zip 包下载链接)
Zip 包内容:
layout.json— 中间结果**\_model.json— 模型推理结果**\_content_list.json— 内容列表full.md— Markdown 解析结果
2. 批量文件解析
- 接口:
POST https://mineru.net/api/v4/file-urls/batch - 注意:上传链接有效期 24 小时,单次最多 50 个文件
- 上传完成后系统自动提交解析任务
文件限制
| 限制项 | 值 |
|---|---|
| 文件大小 | ≤ 200 MB |
| 页数 | ≤ 200 页 |
| 支持格式 | PDF、图片、Doc、Docx、Ppt、PPTX、HTML |
Agent 轻量解析 API
无需 token,IP 限频:
- 接口:
POST https://mineru.net/api/v1/agent/parse/url - 文件接口:
POST https://mineru.net/api/v1/agent/parse/file
适用场景
- 文档结构化提取(论文、合同、报告)
- PDF 转 Markdown / JSON
- 表格、图片、公式分离
- 批量文档预处理