MinerU PDF 解析 API

PDF/文档结构化解析接口,支持文本、表格、图片、公式识别

地址:https://mineru.net/apiManage/docs


两种 API 对比

特性精准解析 APIAgent 轻量解析 API
Token需要无需(IP 限频)
接口/api/v4/extract/task/api/v1/agent/parse/url
模型pipeline / vlm / MinerU-HTML固定 pipeline 轻量模型
文件大小≤ 200MB≤ 10MB
页数≤ 200 页≤ 20 页
批量✅ ≤ 200 个❌ 单文件
输出格式Zip(md/json/docx/html/latex)仅 Markdown(CDN 链接)
调用方式异步(提交→轮询)异步(提交→轮询)

精准解析 API

核心请求头

Content-Type: application/json
Authorization: Bearer {token}

1. 单文件解析

创建任务

  • 接口:POST https://mineru.net/api/v4/extract/task
  • 请求体:
参数必选说明
url文件 URL(PDF/Doc/Docx/PPT/图片/HTML)
model_versionpipeline(默认) / vlm / MinerU-HTML
is_ocr是否 OCR,默认 false
enable_formula公式识别,默认 true
enable_table表格识别,默认 true
language文档语言,默认 ch
data_id自定义业务标识(≤128 字符)
callback回调通知 URL(POST)
extra_formats额外格式:["docx","html","latex"]
page_ranges页码范围,如 "2,4-6""2--2"

轮询结果

  • 接口:GET https://mineru.net/api/v4/extract/task/{task_id}

state 取值:done / pending / running / failed / converting

完成时返回 full_zip_url(Zip 包下载链接)

Zip 包内容:

  • layout.json — 中间结果
  • **\_model.json — 模型推理结果
  • **\_content_list.json — 内容列表
  • full.md — Markdown 解析结果

2. 批量文件解析

  • 接口:POST https://mineru.net/api/v4/file-urls/batch
  • 注意:上传链接有效期 24 小时,单次最多 50 个文件
  • 上传完成后系统自动提交解析任务

文件限制

限制项
文件大小≤ 200 MB
页数≤ 200 页
支持格式PDF、图片、Doc、Docx、Ppt、PPTX、HTML

Agent 轻量解析 API

无需 token,IP 限频:

  • 接口:POST https://mineru.net/api/v1/agent/parse/url
  • 文件接口:POST https://mineru.net/api/v1/agent/parse/file

适用场景

  • 文档结构化提取(论文、合同、报告)
  • PDF 转 Markdown / JSON
  • 表格、图片、公式分离
  • 批量文档预处理