2026 版本
最後核驗:2026-04-15
36 個 PDF skills / tools
Agent-ready

2026 PDF Skills 研究報告:面向 Codex、Claude Code、OpenClaw、Trae 的完整安裝與選型方案

2026 年的 PDF skills 選型,關鍵已不只在能力本身,而在這些能力如何被 Codex、Claude Code、OpenClaw、Trae 等智能體安裝、調用、治理並投入生產工作流。

最重要結論

智能體能否使用某個 PDF skill,首先取決於安裝形態,而不是模型名稱。

原生支援最強

Claude Code 在 skills、MCP、plugins 三層最清楚;OpenClaw 的 workspace skills 也很強。

最穩的開源底座

OCRmyPDF、Docling、MinerU、PyMuPDF、qpdf 仍是 2026 年最值得先落的本地開源組合。

高價值閉源層

Reflo、DeepL、Adobe、OpenAI、Anthropic、Mistral、Google、Azure、AWS 更適合精度或治理優先的團隊。

核心结论

截至 2026 年 4 月 15 日,PDF skills 的選型重點已從「哪個 PDF 工具最強」轉向「哪類 PDF skill 能被哪類 agent 可靠安裝、可審計調用,並穩定進入生產工作流」。

核心判断
  • 截至 2026-04-15,`OpenClaw` 與 `Trae Agent` 明確提供開源程式碼;`Claude Code` 也已有官方 GitHub repo;`Codex CLI` 是開源的,但 Codex app / cloud 仍屬於 OpenAI 托管產品層。
  • 對 PDF 工作流來說,`CLI / Python / Java 程式庫` 是四類 agent 通用性最高的接入形態;`MCP` 在 Claude Code 和 Trae 上最順手,而在 Codex 與 OpenClaw 上更適合作為包裝層。
  • 桌面 GUI 型 PDF 工具不代表不能被 agent 使用,但這類方案更依賴瀏覽器或桌面自動化,穩定性與可審計性通常弱於 CLI / API 路徑。
智能体安装

OpenClaw、Claude Code、Codex、Trae 如何安裝 PDF skills

以下結論均以 2026-04-15 可核驗的官方資料為準,並明確區分「原生支援」「可接入,但依賴包裝層」「更適合桌面自動化」三種狀態。

Codex

Install the CLI or IDE first, then package PDF tooling with AGENTS.md and skills

混合
最适合: PDF automation inside codebases, batch scripts, document understanding, and translation-delivery workflows

安裝方式

  • Install Codex CLI with `npm install -g @openai/codex` or `brew install --cask codex`.
  • Add `AGENTS.md` at the repo root and document the PDF workflow, test commands, and permission boundaries.
  • Package PDF tooling as repo scripts such as `tools/pdf/run_ocr.sh` or `tools/pdf/parse_docling.py`.
  • If you use Codex skills in the app, CLI, or IDE, bundle instructions, resources, and scripts as reusable skills.

能力與邊界

  • Public documentation now confirms both Skills and AGENTS.md.
  • The CLI is open-source, while the app and cloud remain managed product surfaces.
  • The safest integration path for PDF skills is still repo-level scripts plus AGENTS.md.

Claude Code

Four official extension paths: skills, plugins, MCP, and CLAUDE.md

混合
最适合: Teams that want the clearest official extension model and reusable PDF skills as durable team assets

安裝方式

  • Install Claude Code with `curl -fsSL https://claude.ai/install.sh | bash`, or use Homebrew / WinGet.
  • Native skills live in `~/.claude/skills/<skill>/SKILL.md` or project-level `.claude/skills/<skill>/SKILL.md`.
  • Use `claude mcp add ...` to connect local stdio servers, remote HTTP servers, or OAuth-backed tools.
  • Bundle skills, agents, hooks, and MCP servers into plugins when you need a sharable team distribution format.

能力與邊界

  • Its public documentation is the most explicit across skills, plugins, and MCP.
  • It works well for both native skills and MCP wrappers around OCR, parsing, translation, and RAG services.
  • The core CLI has an official GitHub repo, while the model and service layer remain proprietary.

OpenClaw

Workspace skills, plugins, ClawHub, and a gateway make it the closest thing to a personal agent OS

開源
最适合: Personal AI assistants, multi-channel automation, and mixed browser / desktop / shell PDF workflows

安裝方式

  • Install OpenClaw from the official repo or install script; the main runtime entry is the Gateway.
  • Workspace skills live in `~/.openclaw/workspace/skills/<skill>/SKILL.md`.
  • Use plugins when a PDF workflow also needs channels, host integrations, or system capabilities.
  • If ClawHub is enabled, agents can search and fetch skills, but production setups should still whitelist and review them.

能力與邊界

  • The official README documents workspace roots, skills paths, and ClawHub behavior clearly.
  • It is stronger than pure IDE agents when browser, desktop, or host-command automation matters.
  • It is also the most open, which means permission control and supply-chain review matter more.

Trae

Trae IDE uses Agent Skills, @Agent, and MCP; the OSS Trae Agent uses YAML plus MCP

混合
最适合: IDE collaboration, multi-agent orchestration, and research-oriented or extensible coding-agent setups

安裝方式

  • Install Trae IDE or SOLO from the official download page when you want the desktop product surface.
  • The official Trae blog already documents Agent Skills creation, import, usage, and MCP support through `@Agent`.
  • For the open-source agent path, use `git clone https://github.com/bytedance/trae-agent.git && uv sync --all-extras`.
  • Add `mcp_servers` in the `trae-agent` config to attach external PDF skills and document tools.

能力與邊界

  • Trae Agent has an official MIT-licensed GitHub repo.
  • The Trae IDE and SOLO product surfaces publicly point to Agent Skills and MCP usage.
  • Use the open agent when you need tighter control; add the IDE when visual workflows matter.
兼容矩阵

從安裝形態來看,哪些 agent 真正能使用這些 PDF skills

不要把「支援 PDF」理解成「支援所有 PDF skill」。真正決定相容性的,不是模型名,而是 skill 的安裝形態:原生 skill、repo 規則、CLI/程式庫、MCP、SaaS API,或 GUI/RPA。

安装形态CodexClaude CodeOpenClawTrae判断
Native skills / commands可直接用原生原生可直接用Claude Code is the clearest today; OpenClaw has workspace skills; Trae has Agent Skills; Codex publicly confirms Skills but exposes fewer file-system details.
Repo rules files (AGENTS.md / CLAUDE.md / Rules)原生可直接用可直接用可直接用All four agent families can consume this layer; it is the most portable and least coupled way to inject team knowledge.
CLI / Python / Java libraries可直接用可直接用可直接用可直接用This is the most reusable packaging form across agent families and the best first layer to deploy.
MCP server可包装接入原生可包装接入可直接用Claude Code is strongest natively; Trae also points clearly to MCP; Codex and OpenClaw usually benefit from MCP through wrappers, plugins, or gateways.
SaaS API / cloud service可直接用可直接用可直接用可直接用All four agent families can use this layer reliably when API keys are governed and packaged as tools or scripts.
Desktop GUI / RPA不建议作为首选不建议作为首选可直接用可包装接入OpenClaw is friendlier to browser and desktop control; Codex and Claude Code should not treat GUI automation as the primary path.
skills 目录

36 個 PDF skills / tools:開源、閉源、GitHub 與適配方式

這裡把「skills」落成可安裝的具體元件:開源庫、CLI、MCP 服務、SaaS API、桌面工具。開源項直接給 GitHub;閉源項給官方入口。

Skill / Tool分類開閉源安裝形態GitHub / 官方最適合備註
Tesseract OCROCR開源CLI / 程式庫
通用 OCR多語 OCR
適合作為本地開源底座精度依賴前處理品質
OCRmyPDFOCR開源CLI / 程式庫
可搜尋 PDF 輸出agent 前處理
適合作為本地開源底座在生產流程中很常見
PaddleOCROCR開源CLI / 程式庫
多語 OCR企業表單與合約
對中文工作流更友善在生產流程中很常見
docTROCR開源CLI / 程式庫
通用 OCR企業表單與合約
適合研究場景精度依賴前處理品質
DoclingPDF 解析開源CLI / 程式庫
LLM 友善結構化複雜版式
適合作為流程基礎件與 MCP 搭配特別順
docling-mcpPDF 解析開源MCP
適合 MCP 接入LLM 友善結構化
與 MCP 搭配特別順適合作為流程基礎件
GROBIDPDF 解析開源CLI / 程式庫
學術論文科研與技術 PDF
適合研究場景在生產流程中很常見
NougatPDF 解析開源CLI / 程式庫
學術論文公式密集文件
適合研究場景不是通用 OCR
MinerUPDF 解析開源CLI / 程式庫
複雜版式公式密集文件
複雜版式能力強在生產流程中很常見
PyMuPDFPDF 操作開源CLI / 程式庫
高效能執行層輕量 PDF 操作
在生產流程中很常見適合作為流程基礎件
PyMuPDF4LLMPDF 操作開源CLI / 程式庫
agent 前處理LLM 友善結構化
適合作為流程基礎件在生產流程中很常見
pypdfPDF 操作開源CLI / 程式庫
輕量 PDF 操作PDF 結構操作
純 Python 友善適合作為流程基礎件
pdfplumber表格提取開源CLI / 程式庫
表格除錯文字型表格
適合除錯適合作為流程基礎件
Unstructured文件 ETL開源CLI / 程式庫
文件分塊agent 前處理
適合作為流程基礎件適合團隊工作流
unstructured-api文件 ETL開源SaaS API
內部 API 層文件分塊
API-first適合團隊工作流
Tabula表格提取開源CLI / 程式庫
文字型表格批次表格提取
對髒掃描限制明顯在生產流程中很常見
tabula-java表格提取開源CLI / 程式庫
批次表格提取Java 企業棧
在生產流程中很常見適合作為流程基礎件
qpdfPDF 操作開源CLI / 程式庫
PDF 結構操作批次後處理
在生產流程中很常見適合作為流程基礎件
pdfcpuPDF 操作開源CLI / 程式庫
批次後處理PDF 結構操作
在生產流程中很常見適合作為流程基礎件
Apache PDFBoxPDF 操作開源CLI / 程式庫
Java 企業棧PDF 結構操作
在生產流程中很常見適合團隊工作流
OpenAI PDF FilesRAG / 推理閉源SaaS API
PDF 推理跨文件檢索
API-first強在理解,不強在版式保真
OpenAI File SearchRAG / 推理閉源SaaS API
跨文件檢索團隊知識檢索
API-first適合團隊工作流
Claude PDF SupportRAG / 推理閉源SaaS API
PDF 推理科研與技術 PDF
API-first強在理解,不強在版式保真
Claude Citations知識問答閉源SaaS API
有依據的答案團隊知識檢索
API-first適合團隊工作流
Mistral OCR企業文件 AI閉源SaaS API
雲端 OCR API複雜版式
API-first會增加供應商依賴與成本
Mathpix PDF to MarkdownPDF 解析閉源SaaS API
公式密集文件學術論文
適合研究場景會增加供應商依賴與成本
Google Document AI企業文件 AI閉源SaaS API
企業表單與合約內部 API 層
更偏企業場景API-first
Azure Document Intelligence企業文件 AI閉源SaaS API
企業表單與合約雲端 OCR API
更偏企業場景API-first
Amazon Textract企業文件 AI閉源SaaS API
企業表單與合約雲端 OCR API
更偏企業場景API-first
Adobe Acrobat AI Assistant桌面 PDF閉源桌面 GUI / RPA
桌面審閱團隊知識檢索
GUI-first通常需要包裝層自動化
Adobe Translate PDF翻譯閉源桌面 GUI / RPA
桌面翻譯流程多語交付
GUI-first高價值翻譯層
ABBYY FineReader PDF桌面 PDF閉源桌面 GUI / RPA
桌面 OCR 與校對可搜尋 PDF 輸出
GUI-first更偏企業場景
Nanonets發票自動化閉源SaaS API
發票與收據內部 API 層
API-first更偏企業場景
Rossum發票自動化閉源SaaS API
發票與收據企業表單與合約
更偏企業場景API-first
Parseur模板提取閉源SaaS API
模板驅動提取內部 API 層
API-first在生產流程中很常見
Reflo翻譯閉源SaaS API
多語交付桌面翻譯流程
高價值翻譯層複雜版式能力強
DeepL Files + Glossary翻譯閉源SaaS API
術語庫驅動翻譯多語交付
高價值翻譯層適合團隊工作流
Smallpdf Translate PDF翻譯閉源桌面 GUI / RPA
輕量臨時翻譯桌面翻譯流程
GUI-first通常需要包裝層自動化
iLovePDF Translate PDF翻譯閉源桌面 GUI / RPA
輕量臨時翻譯桌面翻譯流程
GUI-first通常需要包裝層自動化
PDFgear ChatPDF知識問答閉源桌面 GUI / RPA
桌面 PDF 問答PDF 推理
GUI-first通常需要包裝層自動化
UPDF Chat with PDF知識問答閉源桌面 GUI / RPA
桌面 PDF 問答PDF 推理
GUI-first通常需要包裝層自動化
AskYourPDF知識問答閉源SaaS API
PDF 推理團隊知識檢索
API-first強在理解,不強在版式保真
Humata知識問答閉源SaaS API
團隊知識檢索跨文件檢索
API-first適合團隊工作流
完整方案

面向生产的完整解决方案,不是单个 skill 清单

真正可落地的方案,一定是「智能體 + skills + 包裝層 + 權限治理 + 樣本文檔回歸」的組合,而不是把 30 個工具全部堆上去。

Blueprint A: Local-first open-source PDF agent baseline

適用團隊: Privacy-sensitive teams that want control, lower vendor dependency, and are willing to operate their own stack

推荐栈

  • Agent: Claude Code or OpenClaw, with Trae Agent OSS as a strong alternative
  • OCR: Tesseract + OCRmyPDF + PaddleOCR
  • Parsing: Docling / MinerU / GROBID / Nougat
  • Operations: PyMuPDF + pypdf + qpdf + pdfcpu
  • Tables: pdfplumber + Tabula / tabula-java

实施步骤

  • Install PDF capabilities first as CLI tools and Python scripts instead of starting with GUI products.
  • Package those scripts as reusable skills for each agent family: `.claude/skills`, OpenClaw workspace skills, Trae Agent Skills or YAML, and Codex repo scripts plus AGENTS.md.
  • Prepare 5 to 10 sample documents per document type and run regression checks for OCR, tables, formulas, and reading order.

主要风险

  • Self-hosted stacks cost more to maintain than SaaS layers.
  • Accuracy can drop on complex layouts and low-resource languages.
  • Permissions, logging, and regression governance remain your responsibility.

Blueprint B: Enterprise API-centered PDF agent platform

適用團隊: Enterprises that already run cloud infrastructure and care about SLA, auditability, identity, and compliance

推荐栈

  • Agent: Claude Code or Trae, with Codex covering the code and automation layer
  • OCR / extraction: Google Document AI / Azure Document Intelligence / Amazon Textract
  • Knowledge layer: OpenAI PDF Files + File Search or Claude PDF + citations
  • Business flow tools: Nanonets / Rossum / Parseur
  • Post-processing: qpdf / pypdf / PyMuPDF

实施步骤

  • Wrap closed cloud services behind internal APIs or MCP wrappers instead of wiring every vendor directly into the agent.
  • Route contracts, invoices, research PDFs, and branded collateral through different queues rather than sharing a single prompt chain.
  • Put permissions and audit controls in the orchestration layer, not inside prompts.

主要风险

  • Vendor lock-in and cost growth remain real risks.
  • API output structures may drift after model or service upgrades.
  • Cross-border data flow and compliance boundaries must be reviewed in advance.

Blueprint C: Multilingual PDF delivery stack

適用團隊: Teams handling papers, manuals, contracts, overseas sales assets, and multilingual branded materials

推荐栈

  • Agent: Codex or Claude Code for orchestration, batching, review, and download flows
  • Delivery translation layer: Reflo
  • Terminology layer: DeepL Glossary or an internal termbase
  • Post-processing ecosystem: Adobe Acrobat / Adobe Translate PDF
  • Quality control: PyMuPDF / qpdf / pdfcpu

实施步骤

  • Define termbases, language pairs, and document classes before letting the agent run batch orchestration.
  • Route high-value files through the Reflo / DeepL / Adobe combination and reserve lighter products for lower-risk content.
  • Keep a human side-by-side review step before any customer-facing delivery.

主要风险

  • The closed translation layer costs more than a purely open-source stack.
  • Complex PDFs still require sampled human QA.
  • Errors in branded materials and contracts are expensive, so review gates remain mandatory.
研究方法

方法與證據框架

核驗日期: 2026-04-15
資料類型: 官方產品頁、官方 GitHub repo、幫助中心、開發文件、安裝文件
研究對象: 4 个智能体平台、36 个 PDF skills / tools、6 种安装形态、3 套落地蓝图
  • 證據層僅納入官方產品頁、官方 GitHub repo、官方幫助中心與官方開發文件;媒體二手報導未進入主評分層。
  • 安裝能力被拆分為 6 種形態:原生 skill、repo 規則檔、CLI / 程式庫、MCP、SaaS API、GUI / RPA。
  • agent 相容性判斷不依賴行銷口徑,而依據官方是否披露 skills、commands、plugins、MCP、workspace files、CLI 或 API 等接入機制。
  • Codex 的公開資料已確認 `Skills` 與 `AGENTS.md` 存在;但對 native skills 的磁碟規範公開程度仍少於 Claude Code,因此相關建議被標為實施建議而非完整官方規範轉錄。
来源

官方來源清單

為符合 EEAT,本報告優先引用官方站點、官方 GitHub、官方幫助中心與官方開發文件;推斷性結論會直接標註,不與已核驗事實混寫。

FAQ

常見問題

Claude Code 是開源還是閉源?

截至 2026-04-15,Claude Code 已有官方 GitHub repo,可視為「核心 CLI 開源、模型與託管服務閉源」的混合形態。

Codex 能像 Claude Code 那樣直接裝 PDF skills 嗎?

可以,但目前最穩的公開路徑仍是 `AGENTS.md + repo scripts + PDF CLI/API 工具`。OpenAI 已公開確認 Skills 存在,但原生目錄規範的公開程度仍不如 Claude Code。

OpenClaw 適合接 GUI 型 PDF 工具嗎?

適合,尤其在瀏覽器、桌面與訊息渠道聯動方面比純 IDE agent 更強;但 GUI 自動化的穩定性通常弱於 CLI / API。

Trae 是開源還是閉源?

`Trae Agent` 的官方 GitHub repo 是 MIT 開源;而 `Trae IDE / SOLO` 作為完整商業產品表面仍更接近閉源託管產品。

如果只想做一個可靠的 PDF agent 最小可行方案,先裝什麼?

通常先裝 OCRmyPDF、Docling 或 MinerU、PyMuPDF / pypdf、qpdf,再依場景疊加 OpenAI / Claude / Reflo / DeepL 這一層即可。

最终建议

如果需要完整方案,先選安裝形態,再選 PDF skill,最後再選模型

2026 年做 PDF agent 方案時,更應優先考慮 `CLI / API / MCP 可安裝性` > `安全與審計` > `PDF 能力精度` > `模型品牌`。多語 PDF 交付場景裡,Reflo + DeepL / Adobe 是高價值閉源層;本地開源基線則以 OCRmyPDF、Docling、MinerU、PyMuPDF、qpdf 為核心。

2026 PDF Skills 研究報告:面向 Codex、Claude Code、OpenClaw、Trae 的完整安裝與選型方案