截至 2026 年 4 月 15 日,PDF skills 的选型重点已经从“哪个 PDF 工具最强”转向“哪类 PDF skill 能被哪类 agent 可靠安装、可审计调用,并稳定进入生产工作流”。
- 截至 2026-04-15,`OpenClaw` 和 `Trae Agent` 明确有开源代码;`Claude Code` 也已有官方 GitHub repo;`Codex CLI` 是开源的,但 Codex app / cloud 仍属于 OpenAI 托管产品层。
- 对 PDF 工作流来说,`CLI / Python / Java 库` 是四类 agent 通用性最高的接入形态;`MCP` 在 Claude Code 和 Trae 上最顺手,在 Codex 与 OpenClaw 上更适合作为包装层而不是唯一依赖。
- 桌面 GUI 型 PDF 工具并不等于不能被 agent 使用,但这类方案更依赖浏览器/桌面自动化,稳定性和可审计性通常弱于 CLI / API 路径。
OpenClaw、Claude Code、Codex、Trae 怎么装 PDF skills
以下结论均以 2026-04-15 可核验的官方资料为准,并明确区分“原生支持”“可以接入,但依赖包装层”“更适合桌面自动化”三种状态。
Codex
Install the CLI or IDE first, then package PDF tooling with AGENTS.md and skills
安装方式
- Install Codex CLI with `npm install -g @openai/codex` or `brew install --cask codex`.
- Add `AGENTS.md` at the repo root and document the PDF workflow, test commands, and permission boundaries.
- Package PDF tooling as repo scripts such as `tools/pdf/run_ocr.sh` or `tools/pdf/parse_docling.py`.
- If you use Codex skills in the app, CLI, or IDE, bundle instructions, resources, and scripts as reusable skills.
能力与边界
- Public documentation now confirms both Skills and AGENTS.md.
- The CLI is open-source, while the app and cloud remain managed product surfaces.
- The safest integration path for PDF skills is still repo-level scripts plus AGENTS.md.
Claude Code
Four official extension paths: skills, plugins, MCP, and CLAUDE.md
安装方式
- Install Claude Code with `curl -fsSL https://claude.ai/install.sh | bash`, or use Homebrew / WinGet.
- Native skills live in `~/.claude/skills/<skill>/SKILL.md` or project-level `.claude/skills/<skill>/SKILL.md`.
- Use `claude mcp add ...` to connect local stdio servers, remote HTTP servers, or OAuth-backed tools.
- Bundle skills, agents, hooks, and MCP servers into plugins when you need a sharable team distribution format.
能力与边界
- Its public documentation is the most explicit across skills, plugins, and MCP.
- It works well for both native skills and MCP wrappers around OCR, parsing, translation, and RAG services.
- The core CLI has an official GitHub repo, while the model and service layer remain proprietary.
OpenClaw
Workspace skills, plugins, ClawHub, and a gateway make it the closest thing to a personal agent OS
安装方式
- Install OpenClaw from the official repo or install script; the main runtime entry is the Gateway.
- Workspace skills live in `~/.openclaw/workspace/skills/<skill>/SKILL.md`.
- Use plugins when a PDF workflow also needs channels, host integrations, or system capabilities.
- If ClawHub is enabled, agents can search and fetch skills, but production setups should still whitelist and review them.
能力与边界
- The official README documents workspace roots, skills paths, and ClawHub behavior clearly.
- It is stronger than pure IDE agents when browser, desktop, or host-command automation matters.
- It is also the most open, which means permission control and supply-chain review matter more.
Trae
Trae IDE uses Agent Skills, @Agent, and MCP; the OSS Trae Agent uses YAML plus MCP
安装方式
- Install Trae IDE or SOLO from the official download page when you want the desktop product surface.
- The official Trae blog already documents Agent Skills creation, import, usage, and MCP support through `@Agent`.
- For the open-source agent path, use `git clone https://github.com/bytedance/trae-agent.git && uv sync --all-extras`.
- Add `mcp_servers` in the `trae-agent` config to attach external PDF skills and document tools.
能力与边界
- Trae Agent has an official MIT-licensed GitHub repo.
- The Trae IDE and SOLO product surfaces publicly point to Agent Skills and MCP usage.
- Use the open agent when you need tighter control; add the IDE when visual workflows matter.
按安装形态看,哪些 agent 真能用这些 PDF skills
不要把“支持 PDF”理解成“支持所有 PDF skill”。真正决定兼容性的,不是模型名,而是 skill 的安装形态:原生 skill、repo 规则、CLI/库、MCP、SaaS API,还是 GUI/RPA。
| 安装形态 | Codex | Claude Code | OpenClaw | Trae | 判断 |
|---|---|---|---|---|---|
| Native skills / commands | 可直接用 | 原生 | 原生 | 可直接用 | Claude Code is the clearest today; OpenClaw has workspace skills; Trae has Agent Skills; Codex publicly confirms Skills but exposes fewer file-system details. |
| Repo rules files (AGENTS.md / CLAUDE.md / Rules) | 原生 | 可直接用 | 可直接用 | 可直接用 | All four agent families can consume this layer; it is the most portable and least coupled way to inject team knowledge. |
| CLI / Python / Java libraries | 可直接用 | 可直接用 | 可直接用 | 可直接用 | This is the most reusable packaging form across agent families and the best first layer to deploy. |
| MCP server | 可包装接入 | 原生 | 可包装接入 | 可直接用 | Claude Code is strongest natively; Trae also points clearly to MCP; Codex and OpenClaw usually benefit from MCP through wrappers, plugins, or gateways. |
| SaaS API / cloud service | 可直接用 | 可直接用 | 可直接用 | 可直接用 | All four agent families can use this layer reliably when API keys are governed and packaged as tools or scripts. |
| Desktop GUI / RPA | 不建议作为首选 | 不建议作为首选 | 可直接用 | 可包装接入 | OpenClaw is friendlier to browser and desktop control; Codex and Claude Code should not treat GUI automation as the primary path. |
36 个 PDF skills / tools:开源、闭源、GitHub 与适配方式
这里把“skills”落成可安装的具体组件:开源库、CLI、MCP 服务、SaaS API、桌面工具。开源项直接给 GitHub;闭源项给官方入口。
| Skill / Tool | 分类 | 开闭源 | 安装形态 | GitHub / 官方 | 最适合 | 备注 |
|---|---|---|---|---|---|---|
| Tesseract OCR | OCR | 开源 | CLI / 库 | 通用 OCR多语言 OCR | 适合作为本地开源底座精度依赖预处理质量 | |
| OCRmyPDF | OCR | 开源 | CLI / 库 | 可搜索 PDF 输出agent 预处理 | 适合作为本地开源底座在生产工作流中很常见 | |
| PaddleOCR | OCR | 开源 | CLI / 库 | 多语言 OCR企业表单与合同 | 对中文工作流更友好在生产工作流中很常见 | |
| docTR | OCR | 开源 | CLI / 库 | 通用 OCR企业表单与合同 | 适合研究场景精度依赖预处理质量 | |
| Docling | PDF 解析 | 开源 | CLI / 库 | LLM 友好结构化复杂版式 | 适合作为管道基础件与 MCP 配合特别顺 | |
| docling-mcp | PDF 解析 | 开源 | MCP | 适合 MCP 接入LLM 友好结构化 | 与 MCP 配合特别顺适合作为管道基础件 | |
| GROBID | PDF 解析 | 开源 | CLI / 库 | 学术论文科研与技术 PDF | 适合研究场景在生产工作流中很常见 | |
| Nougat | PDF 解析 | 开源 | CLI / 库 | 学术论文公式密集文档 | 适合研究场景不是通用 OCR | |
| MinerU | PDF 解析 | 开源 | CLI / 库 | 复杂版式公式密集文档 | 复杂版式能力强在生产工作流中很常见 | |
| PyMuPDF | PDF 操作 | 开源 | CLI / 库 | 高性能运行时轻量 PDF 操作 | 在生产工作流中很常见适合作为管道基础件 | |
| PyMuPDF4LLM | PDF 操作 | 开源 | CLI / 库 | agent 预处理LLM 友好结构化 | 适合作为管道基础件在生产工作流中很常见 | |
| pypdf | PDF 操作 | 开源 | CLI / 库 | 轻量 PDF 操作PDF 结构操作 | 纯 Python 友好适合作为管道基础件 | |
| pdfplumber | 表格提取 | 开源 | CLI / 库 | 表格调试文本型表格 | 适合调试适合作为管道基础件 | |
| Unstructured | 文档 ETL | 开源 | CLI / 库 | 文档分块agent 预处理 | 适合作为管道基础件适合团队工作流 | |
| unstructured-api | 文档 ETL | 开源 | SaaS API | 内部 API 层文档分块 | API-first适合团队工作流 | |
| Tabula | 表格提取 | 开源 | CLI / 库 | 文本型表格批量表格提取 | 对脏扫描限制明显在生产工作流中很常见 | |
| tabula-java | 表格提取 | 开源 | CLI / 库 | 批量表格提取Java 企业栈 | 在生产工作流中很常见适合作为管道基础件 | |
| qpdf | PDF 操作 | 开源 | CLI / 库 | PDF 结构操作批量后处理 | 在生产工作流中很常见适合作为管道基础件 | |
| pdfcpu | PDF 操作 | 开源 | CLI / 库 | 批量后处理PDF 结构操作 | 在生产工作流中很常见适合作为管道基础件 | |
| Apache PDFBox | PDF 操作 | 开源 | CLI / 库 | Java 企业栈PDF 结构操作 | 在生产工作流中很常见适合团队工作流 | |
| OpenAI PDF Files | RAG / 推理 | 闭源 | SaaS API | PDF 推理跨文档检索 | API-first更强在理解,不强在版式保真 | |
| OpenAI File Search | RAG / 推理 | 闭源 | SaaS API | 跨文档检索团队知识检索 | API-first适合团队工作流 | |
| Claude PDF Support | RAG / 推理 | 闭源 | SaaS API | PDF 推理科研与技术 PDF | API-first更强在理解,不强在版式保真 | |
| Claude Citations | 知识问答 | 闭源 | SaaS API | 带依据的答案团队知识检索 | API-first适合团队工作流 | |
| Mistral OCR | 企业文档 AI | 闭源 | SaaS API | 云端 OCR API复杂版式 | API-first会增加供应商依赖与成本 | |
| Mathpix PDF to Markdown | PDF 解析 | 闭源 | SaaS API | 公式密集文档学术论文 | 适合研究场景会增加供应商依赖与成本 | |
| Google Document AI | 企业文档 AI | 闭源 | SaaS API | 企业表单与合同内部 API 层 | 更偏企业场景API-first | |
| Azure Document Intelligence | 企业文档 AI | 闭源 | SaaS API | 企业表单与合同云端 OCR API | 更偏企业场景API-first | |
| Amazon Textract | 企业文档 AI | 闭源 | SaaS API | 企业表单与合同云端 OCR API | 更偏企业场景API-first | |
| Adobe Acrobat AI Assistant | 桌面 PDF | 闭源 | 桌面 GUI / RPA | 桌面审阅团队知识检索 | GUI-first通常需要包装层自动化 | |
| Adobe Translate PDF | 翻译 | 闭源 | 桌面 GUI / RPA | 桌面翻译工作流多语言交付 | GUI-first高价值翻译层 | |
| ABBYY FineReader PDF | 桌面 PDF | 闭源 | 桌面 GUI / RPA | 桌面 OCR 与校对可搜索 PDF 输出 | GUI-first更偏企业场景 | |
| Nanonets | 发票自动化 | 闭源 | SaaS API | 发票与小票内部 API 层 | API-first更偏企业场景 | |
| Rossum | 发票自动化 | 闭源 | SaaS API | 发票与小票企业表单与合同 | 更偏企业场景API-first | |
| Parseur | 模板提取 | 闭源 | SaaS API | 模板驱动提取内部 API 层 | API-first在生产工作流中很常见 | |
| Reflo | 翻译 | 闭源 | SaaS API | 多语言交付桌面翻译工作流 | 高价值翻译层复杂版式能力强 | |
| DeepL Files + Glossary | 翻译 | 闭源 | SaaS API | 术语库驱动翻译多语言交付 | 高价值翻译层适合团队工作流 | |
| Smallpdf Translate PDF | 翻译 | 闭源 | 桌面 GUI / RPA | 轻量临时翻译桌面翻译工作流 | GUI-first通常需要包装层自动化 | |
| iLovePDF Translate PDF | 翻译 | 闭源 | 桌面 GUI / RPA | 轻量临时翻译桌面翻译工作流 | GUI-first通常需要包装层自动化 | |
| PDFgear ChatPDF | 知识问答 | 闭源 | 桌面 GUI / RPA | 桌面 PDF 问答PDF 推理 | GUI-first通常需要包装层自动化 | |
| UPDF Chat with PDF | 知识问答 | 闭源 | 桌面 GUI / RPA | 桌面 PDF 问答PDF 推理 | GUI-first通常需要包装层自动化 | |
| AskYourPDF | 知识问答 | 闭源 | SaaS API | PDF 推理团队知识检索 | API-first更强在理解,不强在版式保真 | |
| Humata | 知识问答 | 闭源 | SaaS API | 团队知识检索跨文档检索 | API-first适合团队工作流 |
面向生产的完整解决方案,不是单个 skill 清单
真正可落地的方案,一定是“智能体 + skills + 包装层 + 权限治理 + 样本文档回归”的组合,而不是把 30 个工具全堆进去。
Blueprint A: Local-first open-source PDF agent baseline
推荐栈
- Agent: Claude Code or OpenClaw, with Trae Agent OSS as a strong alternative
- OCR: Tesseract + OCRmyPDF + PaddleOCR
- Parsing: Docling / MinerU / GROBID / Nougat
- Operations: PyMuPDF + pypdf + qpdf + pdfcpu
- Tables: pdfplumber + Tabula / tabula-java
实施步骤
- Install PDF capabilities first as CLI tools and Python scripts instead of starting with GUI products.
- Package those scripts as reusable skills for each agent family: `.claude/skills`, OpenClaw workspace skills, Trae Agent Skills or YAML, and Codex repo scripts plus AGENTS.md.
- Prepare 5 to 10 sample documents per document type and run regression checks for OCR, tables, formulas, and reading order.
主要风险
- Self-hosted stacks cost more to maintain than SaaS layers.
- Accuracy can drop on complex layouts and low-resource languages.
- Permissions, logging, and regression governance remain your responsibility.
Blueprint B: Enterprise API-centered PDF agent platform
推荐栈
- Agent: Claude Code or Trae, with Codex covering the code and automation layer
- OCR / extraction: Google Document AI / Azure Document Intelligence / Amazon Textract
- Knowledge layer: OpenAI PDF Files + File Search or Claude PDF + citations
- Business flow tools: Nanonets / Rossum / Parseur
- Post-processing: qpdf / pypdf / PyMuPDF
实施步骤
- Wrap closed cloud services behind internal APIs or MCP wrappers instead of wiring every vendor directly into the agent.
- Route contracts, invoices, research PDFs, and branded collateral through different queues rather than sharing a single prompt chain.
- Put permissions and audit controls in the orchestration layer, not inside prompts.
主要风险
- Vendor lock-in and cost growth remain real risks.
- API output structures may drift after model or service upgrades.
- Cross-border data flow and compliance boundaries must be reviewed in advance.
Blueprint C: Multilingual PDF delivery stack
推荐栈
- Agent: Codex or Claude Code for orchestration, batching, review, and download flows
- Delivery translation layer: Reflo
- Terminology layer: DeepL Glossary or an internal termbase
- Post-processing ecosystem: Adobe Acrobat / Adobe Translate PDF
- Quality control: PyMuPDF / qpdf / pdfcpu
实施步骤
- Define termbases, language pairs, and document classes before letting the agent run batch orchestration.
- Route high-value files through the Reflo / DeepL / Adobe combination and reserve lighter products for lower-risk content.
- Keep a human side-by-side review step before any customer-facing delivery.
主要风险
- The closed translation layer costs more than a purely open-source stack.
- Complex PDFs still require sampled human QA.
- Errors in branded materials and contracts are expensive, so review gates remain mandatory.
方法与证据框架
资料类型: 官方产品页、官方 GitHub repo、帮助中心、开发文档、安装文档
研究对象: 4 个智能体平台、36 个 PDF skills / tools、6 种安装形态、3 套落地蓝图
- 证据层仅纳入官方产品页、官方 GitHub repo、官方帮助中心和官方开发文档;媒体二手报道未进入主评分层。
- 安装能力被拆分为 6 种形态:原生 skill、repo 规则文件、CLI / 库、MCP、SaaS API、GUI / RPA。
- agent 兼容性判断不依据营销口径,而依据官方是否披露 skills、commands、plugins、MCP、workspace files、CLI 或 API 等接入机制。
- Codex 的公开资料已经确认 `Skills` 与 `AGENTS.md` 存在;但公开页面对 native skills 的磁盘规范披露仍少于 Claude Code。因此报告里把 Codex 对 MCP/skills 的部分安装建议标为“实施建议”而不是“官方规范逐条转录”。
官方来源清单
为符合 EEAT,本报告优先引用官方站点、官方 GitHub、官方帮助中心和官方开发文档;推断性结论会直接标注,不与已核验事实混写。
Codex
Claude Code
OpenClaw
Trae
Open-source PDF stack
Closed / cloud PDF stack
- OpenAI PDF files guide
- OpenAI file search
- Claude PDF support
- Claude citations
- Mistral OCR
- Mathpix PDF to Markdown
- Google Document AI overview
- Azure Document Intelligence overview
- Amazon Textract overview
- Adobe Acrobat AI Assistant
- Adobe Translate PDF
- ABBYY FineReader PDF
- Reflo upload
- DeepL file translation
- DeepL glossary for file translation
常见问题
Claude Code 是开源还是闭源?
截至 2026-04-15,Claude Code 已有官方 GitHub repo,可视为“核心 CLI 开源、模型与托管服务闭源”的混合形态,而不是纯闭源黑盒。
Codex 能不能像 Claude Code 那样直接装 PDF skills?
可以,但最稳的公开落地方式仍是 `AGENTS.md + repo scripts + PDF CLI/API 工具`。OpenAI 官方公开页已经确认 Skills 存在,但对原生目录规范的公开文档仍不如 Claude Code 细。
OpenClaw 适不适合接 GUI 型 PDF 工具?
适合,尤其在浏览器、桌面和消息渠道联动这件事上比纯 IDE agent 更强;但 GUI 自动化的稳定性一般弱于 CLI / API。
Trae 是开源还是闭源?
要拆开看。`Trae Agent` 官方 GitHub repo 是开源 MIT;但 `Trae IDE / SOLO` 作为完整商业产品表面仍更接近闭源托管产品。
如果我只想做一个靠谱的 PDF agent 最小可行方案,先装什么?
先装 OCRmyPDF、Docling 或 MinerU、PyMuPDF / pypdf、qpdf,再根据场景叠加 OpenAI / Claude / Reflo / DeepL 这一层即可。