2026 版本
最后核验:2026-04-15
36 个 PDF skills / tools
Agent-ready

2026 PDF Skills 研究报告:面向 Codex、Claude Code、OpenClaw、Trae 的完整安装与选型方案

2026 年的 PDF skills 选型,重点已经不只是能力本身,而是这些能力如何被 Codex、Claude Code、OpenClaw、Trae 等智能体安装、调用、治理并投入生产工作流。

最重要结论

智能体是否能用某个 PDF skill,首先取决于安装形态,不取决于模型名。

原生支持最强

Claude Code 在 skills、MCP、plugins 三层都最清晰;OpenClaw 的 workspace skills 也很强。

最稳的开源底座

OCRmyPDF、Docling、MinerU、PyMuPDF、qpdf 是 2026 年最值得先落的本地开源组合。

闭源高价值层

Reflo、DeepL、Adobe、OpenAI、Anthropic、Mistral、Google、Azure、AWS 更适合精度或企业治理优先的团队。

核心结论

截至 2026 年 4 月 15 日,PDF skills 的选型重点已经从“哪个 PDF 工具最强”转向“哪类 PDF skill 能被哪类 agent 可靠安装、可审计调用,并稳定进入生产工作流”。

核心判断
  • 截至 2026-04-15,`OpenClaw` 和 `Trae Agent` 明确有开源代码;`Claude Code` 也已有官方 GitHub repo;`Codex CLI` 是开源的,但 Codex app / cloud 仍属于 OpenAI 托管产品层。
  • 对 PDF 工作流来说,`CLI / Python / Java 库` 是四类 agent 通用性最高的接入形态;`MCP` 在 Claude Code 和 Trae 上最顺手,在 Codex 与 OpenClaw 上更适合作为包装层而不是唯一依赖。
  • 桌面 GUI 型 PDF 工具并不等于不能被 agent 使用,但这类方案更依赖浏览器/桌面自动化,稳定性和可审计性通常弱于 CLI / API 路径。
智能体安装

OpenClaw、Claude Code、Codex、Trae 怎么装 PDF skills

以下结论均以 2026-04-15 可核验的官方资料为准,并明确区分“原生支持”“可以接入,但依赖包装层”“更适合桌面自动化”三种状态。

Codex

Install the CLI or IDE first, then package PDF tooling with AGENTS.md and skills

混合
最适合: PDF automation inside codebases, batch scripts, document understanding, and translation-delivery workflows

安装方式

  • Install Codex CLI with `npm install -g @openai/codex` or `brew install --cask codex`.
  • Add `AGENTS.md` at the repo root and document the PDF workflow, test commands, and permission boundaries.
  • Package PDF tooling as repo scripts such as `tools/pdf/run_ocr.sh` or `tools/pdf/parse_docling.py`.
  • If you use Codex skills in the app, CLI, or IDE, bundle instructions, resources, and scripts as reusable skills.

能力与边界

  • Public documentation now confirms both Skills and AGENTS.md.
  • The CLI is open-source, while the app and cloud remain managed product surfaces.
  • The safest integration path for PDF skills is still repo-level scripts plus AGENTS.md.

Claude Code

Four official extension paths: skills, plugins, MCP, and CLAUDE.md

混合
最适合: Teams that want the clearest official extension model and reusable PDF skills as durable team assets

安装方式

  • Install Claude Code with `curl -fsSL https://claude.ai/install.sh | bash`, or use Homebrew / WinGet.
  • Native skills live in `~/.claude/skills/<skill>/SKILL.md` or project-level `.claude/skills/<skill>/SKILL.md`.
  • Use `claude mcp add ...` to connect local stdio servers, remote HTTP servers, or OAuth-backed tools.
  • Bundle skills, agents, hooks, and MCP servers into plugins when you need a sharable team distribution format.

能力与边界

  • Its public documentation is the most explicit across skills, plugins, and MCP.
  • It works well for both native skills and MCP wrappers around OCR, parsing, translation, and RAG services.
  • The core CLI has an official GitHub repo, while the model and service layer remain proprietary.

OpenClaw

Workspace skills, plugins, ClawHub, and a gateway make it the closest thing to a personal agent OS

开源
最适合: Personal AI assistants, multi-channel automation, and mixed browser / desktop / shell PDF workflows

安装方式

  • Install OpenClaw from the official repo or install script; the main runtime entry is the Gateway.
  • Workspace skills live in `~/.openclaw/workspace/skills/<skill>/SKILL.md`.
  • Use plugins when a PDF workflow also needs channels, host integrations, or system capabilities.
  • If ClawHub is enabled, agents can search and fetch skills, but production setups should still whitelist and review them.

能力与边界

  • The official README documents workspace roots, skills paths, and ClawHub behavior clearly.
  • It is stronger than pure IDE agents when browser, desktop, or host-command automation matters.
  • It is also the most open, which means permission control and supply-chain review matter more.

Trae

Trae IDE uses Agent Skills, @Agent, and MCP; the OSS Trae Agent uses YAML plus MCP

混合
最适合: IDE collaboration, multi-agent orchestration, and research-oriented or extensible coding-agent setups

安装方式

  • Install Trae IDE or SOLO from the official download page when you want the desktop product surface.
  • The official Trae blog already documents Agent Skills creation, import, usage, and MCP support through `@Agent`.
  • For the open-source agent path, use `git clone https://github.com/bytedance/trae-agent.git && uv sync --all-extras`.
  • Add `mcp_servers` in the `trae-agent` config to attach external PDF skills and document tools.

能力与边界

  • Trae Agent has an official MIT-licensed GitHub repo.
  • The Trae IDE and SOLO product surfaces publicly point to Agent Skills and MCP usage.
  • Use the open agent when you need tighter control; add the IDE when visual workflows matter.
兼容矩阵

按安装形态看,哪些 agent 真能用这些 PDF skills

不要把“支持 PDF”理解成“支持所有 PDF skill”。真正决定兼容性的,不是模型名,而是 skill 的安装形态:原生 skill、repo 规则、CLI/库、MCP、SaaS API,还是 GUI/RPA。

安装形态CodexClaude CodeOpenClawTrae判断
Native skills / commands可直接用原生原生可直接用Claude Code is the clearest today; OpenClaw has workspace skills; Trae has Agent Skills; Codex publicly confirms Skills but exposes fewer file-system details.
Repo rules files (AGENTS.md / CLAUDE.md / Rules)原生可直接用可直接用可直接用All four agent families can consume this layer; it is the most portable and least coupled way to inject team knowledge.
CLI / Python / Java libraries可直接用可直接用可直接用可直接用This is the most reusable packaging form across agent families and the best first layer to deploy.
MCP server可包装接入原生可包装接入可直接用Claude Code is strongest natively; Trae also points clearly to MCP; Codex and OpenClaw usually benefit from MCP through wrappers, plugins, or gateways.
SaaS API / cloud service可直接用可直接用可直接用可直接用All four agent families can use this layer reliably when API keys are governed and packaged as tools or scripts.
Desktop GUI / RPA不建议作为首选不建议作为首选可直接用可包装接入OpenClaw is friendlier to browser and desktop control; Codex and Claude Code should not treat GUI automation as the primary path.
skills 目录

36 个 PDF skills / tools:开源、闭源、GitHub 与适配方式

这里把“skills”落成可安装的具体组件:开源库、CLI、MCP 服务、SaaS API、桌面工具。开源项直接给 GitHub;闭源项给官方入口。

Skill / Tool分类开闭源安装形态GitHub / 官方最适合备注
Tesseract OCROCR开源CLI / 库
通用 OCR多语言 OCR
适合作为本地开源底座精度依赖预处理质量
OCRmyPDFOCR开源CLI / 库
可搜索 PDF 输出agent 预处理
适合作为本地开源底座在生产工作流中很常见
PaddleOCROCR开源CLI / 库
多语言 OCR企业表单与合同
对中文工作流更友好在生产工作流中很常见
docTROCR开源CLI / 库
通用 OCR企业表单与合同
适合研究场景精度依赖预处理质量
DoclingPDF 解析开源CLI / 库
LLM 友好结构化复杂版式
适合作为管道基础件与 MCP 配合特别顺
docling-mcpPDF 解析开源MCP
适合 MCP 接入LLM 友好结构化
与 MCP 配合特别顺适合作为管道基础件
GROBIDPDF 解析开源CLI / 库
学术论文科研与技术 PDF
适合研究场景在生产工作流中很常见
NougatPDF 解析开源CLI / 库
学术论文公式密集文档
适合研究场景不是通用 OCR
MinerUPDF 解析开源CLI / 库
复杂版式公式密集文档
复杂版式能力强在生产工作流中很常见
PyMuPDFPDF 操作开源CLI / 库
高性能运行时轻量 PDF 操作
在生产工作流中很常见适合作为管道基础件
PyMuPDF4LLMPDF 操作开源CLI / 库
agent 预处理LLM 友好结构化
适合作为管道基础件在生产工作流中很常见
pypdfPDF 操作开源CLI / 库
轻量 PDF 操作PDF 结构操作
纯 Python 友好适合作为管道基础件
pdfplumber表格提取开源CLI / 库
表格调试文本型表格
适合调试适合作为管道基础件
Unstructured文档 ETL开源CLI / 库
文档分块agent 预处理
适合作为管道基础件适合团队工作流
unstructured-api文档 ETL开源SaaS API
内部 API 层文档分块
API-first适合团队工作流
Tabula表格提取开源CLI / 库
文本型表格批量表格提取
对脏扫描限制明显在生产工作流中很常见
tabula-java表格提取开源CLI / 库
批量表格提取Java 企业栈
在生产工作流中很常见适合作为管道基础件
qpdfPDF 操作开源CLI / 库
PDF 结构操作批量后处理
在生产工作流中很常见适合作为管道基础件
pdfcpuPDF 操作开源CLI / 库
批量后处理PDF 结构操作
在生产工作流中很常见适合作为管道基础件
Apache PDFBoxPDF 操作开源CLI / 库
Java 企业栈PDF 结构操作
在生产工作流中很常见适合团队工作流
OpenAI PDF FilesRAG / 推理闭源SaaS API
PDF 推理跨文档检索
API-first更强在理解,不强在版式保真
OpenAI File SearchRAG / 推理闭源SaaS API
跨文档检索团队知识检索
API-first适合团队工作流
Claude PDF SupportRAG / 推理闭源SaaS API
PDF 推理科研与技术 PDF
API-first更强在理解,不强在版式保真
Claude Citations知识问答闭源SaaS API
带依据的答案团队知识检索
API-first适合团队工作流
Mistral OCR企业文档 AI闭源SaaS API
云端 OCR API复杂版式
API-first会增加供应商依赖与成本
Mathpix PDF to MarkdownPDF 解析闭源SaaS API
公式密集文档学术论文
适合研究场景会增加供应商依赖与成本
Google Document AI企业文档 AI闭源SaaS API
企业表单与合同内部 API 层
更偏企业场景API-first
Azure Document Intelligence企业文档 AI闭源SaaS API
企业表单与合同云端 OCR API
更偏企业场景API-first
Amazon Textract企业文档 AI闭源SaaS API
企业表单与合同云端 OCR API
更偏企业场景API-first
Adobe Acrobat AI Assistant桌面 PDF闭源桌面 GUI / RPA
桌面审阅团队知识检索
GUI-first通常需要包装层自动化
Adobe Translate PDF翻译闭源桌面 GUI / RPA
桌面翻译工作流多语言交付
GUI-first高价值翻译层
ABBYY FineReader PDF桌面 PDF闭源桌面 GUI / RPA
桌面 OCR 与校对可搜索 PDF 输出
GUI-first更偏企业场景
Nanonets发票自动化闭源SaaS API
发票与小票内部 API 层
API-first更偏企业场景
Rossum发票自动化闭源SaaS API
发票与小票企业表单与合同
更偏企业场景API-first
Parseur模板提取闭源SaaS API
模板驱动提取内部 API 层
API-first在生产工作流中很常见
Reflo翻译闭源SaaS API
多语言交付桌面翻译工作流
高价值翻译层复杂版式能力强
DeepL Files + Glossary翻译闭源SaaS API
术语库驱动翻译多语言交付
高价值翻译层适合团队工作流
Smallpdf Translate PDF翻译闭源桌面 GUI / RPA
轻量临时翻译桌面翻译工作流
GUI-first通常需要包装层自动化
iLovePDF Translate PDF翻译闭源桌面 GUI / RPA
轻量临时翻译桌面翻译工作流
GUI-first通常需要包装层自动化
PDFgear ChatPDF知识问答闭源桌面 GUI / RPA
桌面 PDF 问答PDF 推理
GUI-first通常需要包装层自动化
UPDF Chat with PDF知识问答闭源桌面 GUI / RPA
桌面 PDF 问答PDF 推理
GUI-first通常需要包装层自动化
AskYourPDF知识问答闭源SaaS API
PDF 推理团队知识检索
API-first更强在理解,不强在版式保真
Humata知识问答闭源SaaS API
团队知识检索跨文档检索
API-first适合团队工作流
完整方案

面向生产的完整解决方案,不是单个 skill 清单

真正可落地的方案,一定是“智能体 + skills + 包装层 + 权限治理 + 样本文档回归”的组合,而不是把 30 个工具全堆进去。

Blueprint A: Local-first open-source PDF agent baseline

适用团队: Privacy-sensitive teams that want control, lower vendor dependency, and are willing to operate their own stack

推荐栈

  • Agent: Claude Code or OpenClaw, with Trae Agent OSS as a strong alternative
  • OCR: Tesseract + OCRmyPDF + PaddleOCR
  • Parsing: Docling / MinerU / GROBID / Nougat
  • Operations: PyMuPDF + pypdf + qpdf + pdfcpu
  • Tables: pdfplumber + Tabula / tabula-java

实施步骤

  • Install PDF capabilities first as CLI tools and Python scripts instead of starting with GUI products.
  • Package those scripts as reusable skills for each agent family: `.claude/skills`, OpenClaw workspace skills, Trae Agent Skills or YAML, and Codex repo scripts plus AGENTS.md.
  • Prepare 5 to 10 sample documents per document type and run regression checks for OCR, tables, formulas, and reading order.

主要风险

  • Self-hosted stacks cost more to maintain than SaaS layers.
  • Accuracy can drop on complex layouts and low-resource languages.
  • Permissions, logging, and regression governance remain your responsibility.

Blueprint B: Enterprise API-centered PDF agent platform

适用团队: Enterprises that already run cloud infrastructure and care about SLA, auditability, identity, and compliance

推荐栈

  • Agent: Claude Code or Trae, with Codex covering the code and automation layer
  • OCR / extraction: Google Document AI / Azure Document Intelligence / Amazon Textract
  • Knowledge layer: OpenAI PDF Files + File Search or Claude PDF + citations
  • Business flow tools: Nanonets / Rossum / Parseur
  • Post-processing: qpdf / pypdf / PyMuPDF

实施步骤

  • Wrap closed cloud services behind internal APIs or MCP wrappers instead of wiring every vendor directly into the agent.
  • Route contracts, invoices, research PDFs, and branded collateral through different queues rather than sharing a single prompt chain.
  • Put permissions and audit controls in the orchestration layer, not inside prompts.

主要风险

  • Vendor lock-in and cost growth remain real risks.
  • API output structures may drift after model or service upgrades.
  • Cross-border data flow and compliance boundaries must be reviewed in advance.

Blueprint C: Multilingual PDF delivery stack

适用团队: Teams handling papers, manuals, contracts, overseas sales assets, and multilingual branded materials

推荐栈

  • Agent: Codex or Claude Code for orchestration, batching, review, and download flows
  • Delivery translation layer: Reflo
  • Terminology layer: DeepL Glossary or an internal termbase
  • Post-processing ecosystem: Adobe Acrobat / Adobe Translate PDF
  • Quality control: PyMuPDF / qpdf / pdfcpu

实施步骤

  • Define termbases, language pairs, and document classes before letting the agent run batch orchestration.
  • Route high-value files through the Reflo / DeepL / Adobe combination and reserve lighter products for lower-risk content.
  • Keep a human side-by-side review step before any customer-facing delivery.

主要风险

  • The closed translation layer costs more than a purely open-source stack.
  • Complex PDFs still require sampled human QA.
  • Errors in branded materials and contracts are expensive, so review gates remain mandatory.
研究方法

方法与证据框架

核验日期: 2026-04-15
资料类型: 官方产品页、官方 GitHub repo、帮助中心、开发文档、安装文档
研究对象: 4 个智能体平台、36 个 PDF skills / tools、6 种安装形态、3 套落地蓝图
  • 证据层仅纳入官方产品页、官方 GitHub repo、官方帮助中心和官方开发文档;媒体二手报道未进入主评分层。
  • 安装能力被拆分为 6 种形态:原生 skill、repo 规则文件、CLI / 库、MCP、SaaS API、GUI / RPA。
  • agent 兼容性判断不依据营销口径,而依据官方是否披露 skills、commands、plugins、MCP、workspace files、CLI 或 API 等接入机制。
  • Codex 的公开资料已经确认 `Skills` 与 `AGENTS.md` 存在;但公开页面对 native skills 的磁盘规范披露仍少于 Claude Code。因此报告里把 Codex 对 MCP/skills 的部分安装建议标为“实施建议”而不是“官方规范逐条转录”。
来源

官方来源清单

为符合 EEAT,本报告优先引用官方站点、官方 GitHub、官方帮助中心和官方开发文档;推断性结论会直接标注,不与已核验事实混写。

FAQ

常见问题

Claude Code 是开源还是闭源?

截至 2026-04-15,Claude Code 已有官方 GitHub repo,可视为“核心 CLI 开源、模型与托管服务闭源”的混合形态,而不是纯闭源黑盒。

Codex 能不能像 Claude Code 那样直接装 PDF skills?

可以,但最稳的公开落地方式仍是 `AGENTS.md + repo scripts + PDF CLI/API 工具`。OpenAI 官方公开页已经确认 Skills 存在,但对原生目录规范的公开文档仍不如 Claude Code 细。

OpenClaw 适不适合接 GUI 型 PDF 工具?

适合,尤其在浏览器、桌面和消息渠道联动这件事上比纯 IDE agent 更强;但 GUI 自动化的稳定性一般弱于 CLI / API。

Trae 是开源还是闭源?

要拆开看。`Trae Agent` 官方 GitHub repo 是开源 MIT;但 `Trae IDE / SOLO` 作为完整商业产品表面仍更接近闭源托管产品。

如果我只想做一个靠谱的 PDF agent 最小可行方案,先装什么?

先装 OCRmyPDF、Docling 或 MinerU、PyMuPDF / pypdf、qpdf,再根据场景叠加 OpenAI / Claude / Reflo / DeepL 这一层即可。

最终建议

如果你要的是完整方案,先选安装形态,再选 PDF skill,最后再选模型

2026 年做 PDF agent 方案时,更优先考虑的顺序应是 `CLI / API / MCP 可安装性` > `安全与审计` > `PDF 能力精度` > `模型品牌`。多语言 PDF 交付场景里,Reflo + DeepL / Adobe 是高价值闭源层;本地开源基线则以 OCRmyPDF、Docling、MinerU、PyMuPDF、qpdf 为核心。

2026 PDF Skills 研究报告:面向 Codex、Claude Code、OpenClaw、Trae 的完整安装与选型方案