MinerU PDF 解析 API

PDF/文档结构化解析接口，支持文本、表格、图片、公式识别

地址：https://mineru.net/apiManage/docs

两种 API 对比

特性	精准解析 API	Agent 轻量解析 API
Token	需要	无需（IP 限频）
接口	`/api/v4/extract/task`	`/api/v1/agent/parse/url`
模型	`pipeline` / `vlm` / `MinerU-HTML`	固定 pipeline 轻量模型
文件大小	≤ 200MB	≤ 10MB
页数	≤ 200 页	≤ 20 页
批量	✅ ≤ 200 个	❌ 单文件
输出格式	Zip（md/json/docx/html/latex）	仅 Markdown（CDN 链接）
调用方式	异步（提交→轮询）	异步（提交→轮询）

精准解析 API

核心请求头

Content-Type: application/json
Authorization: Bearer {token}

1. 单文件解析

创建任务

接口：POST https://mineru.net/api/v4/extract/task
请求体：

参数	必选	说明
url	是	文件 URL（PDF/Doc/Docx/PPT/图片/HTML）
model_version	否	`pipeline`(默认) / `vlm` / `MinerU-HTML`
is_ocr	否	是否 OCR，默认 false
enable_formula	否	公式识别，默认 true
enable_table	否	表格识别，默认 true
language	否	文档语言，默认 `ch`
data_id	否	自定义业务标识（≤128 字符）
callback	否	回调通知 URL（POST）
extra_formats	否	额外格式：`["docx","html","latex"]`
page_ranges	否	页码范围，如 `"2,4-6"` 或 `"2--2"`

轮询结果

接口：GET https://mineru.net/api/v4/extract/task/{task_id}

state 取值：done / pending / running / failed / converting

完成时返回 full_zip_url（Zip 包下载链接）

Zip 包内容：

layout.json — 中间结果
**\_model.json — 模型推理结果
**\_content_list.json — 内容列表
full.md — Markdown 解析结果

2. 批量文件解析

接口：POST https://mineru.net/api/v4/file-urls/batch
注意：上传链接有效期 24 小时，单次最多 50 个文件
上传完成后系统自动提交解析任务

文件限制

限制项	值
文件大小	≤ 200 MB
页数	≤ 200 页
支持格式	PDF、图片、Doc、Docx、Ppt、PPTX、HTML

Agent 轻量解析 API

无需 token，IP 限频：

接口：POST https://mineru.net/api/v1/agent/parse/url
文件接口：POST https://mineru.net/api/v1/agent/parse/file

适用场景

文档结构化提取（论文、合同、报告）
PDF 转 Markdown / JSON
表格、图片、公式分离
批量文档预处理