截至 2026 年 4 月 15 日,PDF skills 的選型重點已從「哪個 PDF 工具最強」轉向「哪類 PDF skill 能被哪類 agent 可靠安裝、可審計調用,並穩定進入生產工作流」。
- 截至 2026-04-15,`OpenClaw` 與 `Trae Agent` 明確提供開源程式碼;`Claude Code` 也已有官方 GitHub repo;`Codex CLI` 是開源的,但 Codex app / cloud 仍屬於 OpenAI 托管產品層。
- 對 PDF 工作流來說,`CLI / Python / Java 程式庫` 是四類 agent 通用性最高的接入形態;`MCP` 在 Claude Code 和 Trae 上最順手,而在 Codex 與 OpenClaw 上更適合作為包裝層。
- 桌面 GUI 型 PDF 工具不代表不能被 agent 使用,但這類方案更依賴瀏覽器或桌面自動化,穩定性與可審計性通常弱於 CLI / API 路徑。
OpenClaw、Claude Code、Codex、Trae 如何安裝 PDF skills
以下結論均以 2026-04-15 可核驗的官方資料為準,並明確區分「原生支援」「可接入,但依賴包裝層」「更適合桌面自動化」三種狀態。
Codex
Install the CLI or IDE first, then package PDF tooling with AGENTS.md and skills
安裝方式
- Install Codex CLI with `npm install -g @openai/codex` or `brew install --cask codex`.
- Add `AGENTS.md` at the repo root and document the PDF workflow, test commands, and permission boundaries.
- Package PDF tooling as repo scripts such as `tools/pdf/run_ocr.sh` or `tools/pdf/parse_docling.py`.
- If you use Codex skills in the app, CLI, or IDE, bundle instructions, resources, and scripts as reusable skills.
能力與邊界
- Public documentation now confirms both Skills and AGENTS.md.
- The CLI is open-source, while the app and cloud remain managed product surfaces.
- The safest integration path for PDF skills is still repo-level scripts plus AGENTS.md.
Claude Code
Four official extension paths: skills, plugins, MCP, and CLAUDE.md
安裝方式
- Install Claude Code with `curl -fsSL https://claude.ai/install.sh | bash`, or use Homebrew / WinGet.
- Native skills live in `~/.claude/skills/<skill>/SKILL.md` or project-level `.claude/skills/<skill>/SKILL.md`.
- Use `claude mcp add ...` to connect local stdio servers, remote HTTP servers, or OAuth-backed tools.
- Bundle skills, agents, hooks, and MCP servers into plugins when you need a sharable team distribution format.
能力與邊界
- Its public documentation is the most explicit across skills, plugins, and MCP.
- It works well for both native skills and MCP wrappers around OCR, parsing, translation, and RAG services.
- The core CLI has an official GitHub repo, while the model and service layer remain proprietary.
OpenClaw
Workspace skills, plugins, ClawHub, and a gateway make it the closest thing to a personal agent OS
安裝方式
- Install OpenClaw from the official repo or install script; the main runtime entry is the Gateway.
- Workspace skills live in `~/.openclaw/workspace/skills/<skill>/SKILL.md`.
- Use plugins when a PDF workflow also needs channels, host integrations, or system capabilities.
- If ClawHub is enabled, agents can search and fetch skills, but production setups should still whitelist and review them.
能力與邊界
- The official README documents workspace roots, skills paths, and ClawHub behavior clearly.
- It is stronger than pure IDE agents when browser, desktop, or host-command automation matters.
- It is also the most open, which means permission control and supply-chain review matter more.
Trae
Trae IDE uses Agent Skills, @Agent, and MCP; the OSS Trae Agent uses YAML plus MCP
安裝方式
- Install Trae IDE or SOLO from the official download page when you want the desktop product surface.
- The official Trae blog already documents Agent Skills creation, import, usage, and MCP support through `@Agent`.
- For the open-source agent path, use `git clone https://github.com/bytedance/trae-agent.git && uv sync --all-extras`.
- Add `mcp_servers` in the `trae-agent` config to attach external PDF skills and document tools.
能力與邊界
- Trae Agent has an official MIT-licensed GitHub repo.
- The Trae IDE and SOLO product surfaces publicly point to Agent Skills and MCP usage.
- Use the open agent when you need tighter control; add the IDE when visual workflows matter.
從安裝形態來看,哪些 agent 真正能使用這些 PDF skills
不要把「支援 PDF」理解成「支援所有 PDF skill」。真正決定相容性的,不是模型名,而是 skill 的安裝形態:原生 skill、repo 規則、CLI/程式庫、MCP、SaaS API,或 GUI/RPA。
| 安装形态 | Codex | Claude Code | OpenClaw | Trae | 判断 |
|---|---|---|---|---|---|
| Native skills / commands | 可直接用 | 原生 | 原生 | 可直接用 | Claude Code is the clearest today; OpenClaw has workspace skills; Trae has Agent Skills; Codex publicly confirms Skills but exposes fewer file-system details. |
| Repo rules files (AGENTS.md / CLAUDE.md / Rules) | 原生 | 可直接用 | 可直接用 | 可直接用 | All four agent families can consume this layer; it is the most portable and least coupled way to inject team knowledge. |
| CLI / Python / Java libraries | 可直接用 | 可直接用 | 可直接用 | 可直接用 | This is the most reusable packaging form across agent families and the best first layer to deploy. |
| MCP server | 可包装接入 | 原生 | 可包装接入 | 可直接用 | Claude Code is strongest natively; Trae also points clearly to MCP; Codex and OpenClaw usually benefit from MCP through wrappers, plugins, or gateways. |
| SaaS API / cloud service | 可直接用 | 可直接用 | 可直接用 | 可直接用 | All four agent families can use this layer reliably when API keys are governed and packaged as tools or scripts. |
| Desktop GUI / RPA | 不建议作为首选 | 不建议作为首选 | 可直接用 | 可包装接入 | OpenClaw is friendlier to browser and desktop control; Codex and Claude Code should not treat GUI automation as the primary path. |
36 個 PDF skills / tools:開源、閉源、GitHub 與適配方式
這裡把「skills」落成可安裝的具體元件:開源庫、CLI、MCP 服務、SaaS API、桌面工具。開源項直接給 GitHub;閉源項給官方入口。
| Skill / Tool | 分類 | 開閉源 | 安裝形態 | GitHub / 官方 | 最適合 | 備註 |
|---|---|---|---|---|---|---|
| Tesseract OCR | OCR | 開源 | CLI / 程式庫 | 通用 OCR多語 OCR | 適合作為本地開源底座精度依賴前處理品質 | |
| OCRmyPDF | OCR | 開源 | CLI / 程式庫 | 可搜尋 PDF 輸出agent 前處理 | 適合作為本地開源底座在生產流程中很常見 | |
| PaddleOCR | OCR | 開源 | CLI / 程式庫 | 多語 OCR企業表單與合約 | 對中文工作流更友善在生產流程中很常見 | |
| docTR | OCR | 開源 | CLI / 程式庫 | 通用 OCR企業表單與合約 | 適合研究場景精度依賴前處理品質 | |
| Docling | PDF 解析 | 開源 | CLI / 程式庫 | LLM 友善結構化複雜版式 | 適合作為流程基礎件與 MCP 搭配特別順 | |
| docling-mcp | PDF 解析 | 開源 | MCP | 適合 MCP 接入LLM 友善結構化 | 與 MCP 搭配特別順適合作為流程基礎件 | |
| GROBID | PDF 解析 | 開源 | CLI / 程式庫 | 學術論文科研與技術 PDF | 適合研究場景在生產流程中很常見 | |
| Nougat | PDF 解析 | 開源 | CLI / 程式庫 | 學術論文公式密集文件 | 適合研究場景不是通用 OCR | |
| MinerU | PDF 解析 | 開源 | CLI / 程式庫 | 複雜版式公式密集文件 | 複雜版式能力強在生產流程中很常見 | |
| PyMuPDF | PDF 操作 | 開源 | CLI / 程式庫 | 高效能執行層輕量 PDF 操作 | 在生產流程中很常見適合作為流程基礎件 | |
| PyMuPDF4LLM | PDF 操作 | 開源 | CLI / 程式庫 | agent 前處理LLM 友善結構化 | 適合作為流程基礎件在生產流程中很常見 | |
| pypdf | PDF 操作 | 開源 | CLI / 程式庫 | 輕量 PDF 操作PDF 結構操作 | 純 Python 友善適合作為流程基礎件 | |
| pdfplumber | 表格提取 | 開源 | CLI / 程式庫 | 表格除錯文字型表格 | 適合除錯適合作為流程基礎件 | |
| Unstructured | 文件 ETL | 開源 | CLI / 程式庫 | 文件分塊agent 前處理 | 適合作為流程基礎件適合團隊工作流 | |
| unstructured-api | 文件 ETL | 開源 | SaaS API | 內部 API 層文件分塊 | API-first適合團隊工作流 | |
| Tabula | 表格提取 | 開源 | CLI / 程式庫 | 文字型表格批次表格提取 | 對髒掃描限制明顯在生產流程中很常見 | |
| tabula-java | 表格提取 | 開源 | CLI / 程式庫 | 批次表格提取Java 企業棧 | 在生產流程中很常見適合作為流程基礎件 | |
| qpdf | PDF 操作 | 開源 | CLI / 程式庫 | PDF 結構操作批次後處理 | 在生產流程中很常見適合作為流程基礎件 | |
| pdfcpu | PDF 操作 | 開源 | CLI / 程式庫 | 批次後處理PDF 結構操作 | 在生產流程中很常見適合作為流程基礎件 | |
| Apache PDFBox | PDF 操作 | 開源 | CLI / 程式庫 | Java 企業棧PDF 結構操作 | 在生產流程中很常見適合團隊工作流 | |
| OpenAI PDF Files | RAG / 推理 | 閉源 | SaaS API | PDF 推理跨文件檢索 | API-first強在理解,不強在版式保真 | |
| OpenAI File Search | RAG / 推理 | 閉源 | SaaS API | 跨文件檢索團隊知識檢索 | API-first適合團隊工作流 | |
| Claude PDF Support | RAG / 推理 | 閉源 | SaaS API | PDF 推理科研與技術 PDF | API-first強在理解,不強在版式保真 | |
| Claude Citations | 知識問答 | 閉源 | SaaS API | 有依據的答案團隊知識檢索 | API-first適合團隊工作流 | |
| Mistral OCR | 企業文件 AI | 閉源 | SaaS API | 雲端 OCR API複雜版式 | API-first會增加供應商依賴與成本 | |
| Mathpix PDF to Markdown | PDF 解析 | 閉源 | SaaS API | 公式密集文件學術論文 | 適合研究場景會增加供應商依賴與成本 | |
| Google Document AI | 企業文件 AI | 閉源 | SaaS API | 企業表單與合約內部 API 層 | 更偏企業場景API-first | |
| Azure Document Intelligence | 企業文件 AI | 閉源 | SaaS API | 企業表單與合約雲端 OCR API | 更偏企業場景API-first | |
| Amazon Textract | 企業文件 AI | 閉源 | SaaS API | 企業表單與合約雲端 OCR API | 更偏企業場景API-first | |
| Adobe Acrobat AI Assistant | 桌面 PDF | 閉源 | 桌面 GUI / RPA | 桌面審閱團隊知識檢索 | GUI-first通常需要包裝層自動化 | |
| Adobe Translate PDF | 翻譯 | 閉源 | 桌面 GUI / RPA | 桌面翻譯流程多語交付 | GUI-first高價值翻譯層 | |
| ABBYY FineReader PDF | 桌面 PDF | 閉源 | 桌面 GUI / RPA | 桌面 OCR 與校對可搜尋 PDF 輸出 | GUI-first更偏企業場景 | |
| Nanonets | 發票自動化 | 閉源 | SaaS API | 發票與收據內部 API 層 | API-first更偏企業場景 | |
| Rossum | 發票自動化 | 閉源 | SaaS API | 發票與收據企業表單與合約 | 更偏企業場景API-first | |
| Parseur | 模板提取 | 閉源 | SaaS API | 模板驅動提取內部 API 層 | API-first在生產流程中很常見 | |
| Reflo | 翻譯 | 閉源 | SaaS API | 多語交付桌面翻譯流程 | 高價值翻譯層複雜版式能力強 | |
| DeepL Files + Glossary | 翻譯 | 閉源 | SaaS API | 術語庫驅動翻譯多語交付 | 高價值翻譯層適合團隊工作流 | |
| Smallpdf Translate PDF | 翻譯 | 閉源 | 桌面 GUI / RPA | 輕量臨時翻譯桌面翻譯流程 | GUI-first通常需要包裝層自動化 | |
| iLovePDF Translate PDF | 翻譯 | 閉源 | 桌面 GUI / RPA | 輕量臨時翻譯桌面翻譯流程 | GUI-first通常需要包裝層自動化 | |
| PDFgear ChatPDF | 知識問答 | 閉源 | 桌面 GUI / RPA | 桌面 PDF 問答PDF 推理 | GUI-first通常需要包裝層自動化 | |
| UPDF Chat with PDF | 知識問答 | 閉源 | 桌面 GUI / RPA | 桌面 PDF 問答PDF 推理 | GUI-first通常需要包裝層自動化 | |
| AskYourPDF | 知識問答 | 閉源 | SaaS API | PDF 推理團隊知識檢索 | API-first強在理解,不強在版式保真 | |
| Humata | 知識問答 | 閉源 | SaaS API | 團隊知識檢索跨文件檢索 | API-first適合團隊工作流 |
面向生产的完整解决方案,不是单个 skill 清单
真正可落地的方案,一定是「智能體 + skills + 包裝層 + 權限治理 + 樣本文檔回歸」的組合,而不是把 30 個工具全部堆上去。
Blueprint A: Local-first open-source PDF agent baseline
推荐栈
- Agent: Claude Code or OpenClaw, with Trae Agent OSS as a strong alternative
- OCR: Tesseract + OCRmyPDF + PaddleOCR
- Parsing: Docling / MinerU / GROBID / Nougat
- Operations: PyMuPDF + pypdf + qpdf + pdfcpu
- Tables: pdfplumber + Tabula / tabula-java
实施步骤
- Install PDF capabilities first as CLI tools and Python scripts instead of starting with GUI products.
- Package those scripts as reusable skills for each agent family: `.claude/skills`, OpenClaw workspace skills, Trae Agent Skills or YAML, and Codex repo scripts plus AGENTS.md.
- Prepare 5 to 10 sample documents per document type and run regression checks for OCR, tables, formulas, and reading order.
主要风险
- Self-hosted stacks cost more to maintain than SaaS layers.
- Accuracy can drop on complex layouts and low-resource languages.
- Permissions, logging, and regression governance remain your responsibility.
Blueprint B: Enterprise API-centered PDF agent platform
推荐栈
- Agent: Claude Code or Trae, with Codex covering the code and automation layer
- OCR / extraction: Google Document AI / Azure Document Intelligence / Amazon Textract
- Knowledge layer: OpenAI PDF Files + File Search or Claude PDF + citations
- Business flow tools: Nanonets / Rossum / Parseur
- Post-processing: qpdf / pypdf / PyMuPDF
实施步骤
- Wrap closed cloud services behind internal APIs or MCP wrappers instead of wiring every vendor directly into the agent.
- Route contracts, invoices, research PDFs, and branded collateral through different queues rather than sharing a single prompt chain.
- Put permissions and audit controls in the orchestration layer, not inside prompts.
主要风险
- Vendor lock-in and cost growth remain real risks.
- API output structures may drift after model or service upgrades.
- Cross-border data flow and compliance boundaries must be reviewed in advance.
Blueprint C: Multilingual PDF delivery stack
推荐栈
- Agent: Codex or Claude Code for orchestration, batching, review, and download flows
- Delivery translation layer: Reflo
- Terminology layer: DeepL Glossary or an internal termbase
- Post-processing ecosystem: Adobe Acrobat / Adobe Translate PDF
- Quality control: PyMuPDF / qpdf / pdfcpu
实施步骤
- Define termbases, language pairs, and document classes before letting the agent run batch orchestration.
- Route high-value files through the Reflo / DeepL / Adobe combination and reserve lighter products for lower-risk content.
- Keep a human side-by-side review step before any customer-facing delivery.
主要风险
- The closed translation layer costs more than a purely open-source stack.
- Complex PDFs still require sampled human QA.
- Errors in branded materials and contracts are expensive, so review gates remain mandatory.
方法與證據框架
資料類型: 官方產品頁、官方 GitHub repo、幫助中心、開發文件、安裝文件
研究對象: 4 个智能体平台、36 个 PDF skills / tools、6 种安装形态、3 套落地蓝图
- 證據層僅納入官方產品頁、官方 GitHub repo、官方幫助中心與官方開發文件;媒體二手報導未進入主評分層。
- 安裝能力被拆分為 6 種形態:原生 skill、repo 規則檔、CLI / 程式庫、MCP、SaaS API、GUI / RPA。
- agent 相容性判斷不依賴行銷口徑,而依據官方是否披露 skills、commands、plugins、MCP、workspace files、CLI 或 API 等接入機制。
- Codex 的公開資料已確認 `Skills` 與 `AGENTS.md` 存在;但對 native skills 的磁碟規範公開程度仍少於 Claude Code,因此相關建議被標為實施建議而非完整官方規範轉錄。
官方來源清單
為符合 EEAT,本報告優先引用官方站點、官方 GitHub、官方幫助中心與官方開發文件;推斷性結論會直接標註,不與已核驗事實混寫。
Codex
Claude Code
OpenClaw
Trae
Open-source PDF stack
Closed / cloud PDF stack
- OpenAI PDF files guide
- OpenAI file search
- Claude PDF support
- Claude citations
- Mistral OCR
- Mathpix PDF to Markdown
- Google Document AI overview
- Azure Document Intelligence overview
- Amazon Textract overview
- Adobe Acrobat AI Assistant
- Adobe Translate PDF
- ABBYY FineReader PDF
- Reflo upload
- DeepL file translation
- DeepL glossary for file translation
常見問題
Claude Code 是開源還是閉源?
截至 2026-04-15,Claude Code 已有官方 GitHub repo,可視為「核心 CLI 開源、模型與託管服務閉源」的混合形態。
Codex 能像 Claude Code 那樣直接裝 PDF skills 嗎?
可以,但目前最穩的公開路徑仍是 `AGENTS.md + repo scripts + PDF CLI/API 工具`。OpenAI 已公開確認 Skills 存在,但原生目錄規範的公開程度仍不如 Claude Code。
OpenClaw 適合接 GUI 型 PDF 工具嗎?
適合,尤其在瀏覽器、桌面與訊息渠道聯動方面比純 IDE agent 更強;但 GUI 自動化的穩定性通常弱於 CLI / API。
Trae 是開源還是閉源?
`Trae Agent` 的官方 GitHub repo 是 MIT 開源;而 `Trae IDE / SOLO` 作為完整商業產品表面仍更接近閉源託管產品。
如果只想做一個可靠的 PDF agent 最小可行方案,先裝什麼?
通常先裝 OCRmyPDF、Docling 或 MinerU、PyMuPDF / pypdf、qpdf,再依場景疊加 OpenAI / Claude / Reflo / DeepL 這一層即可。