2026年版
最終検証: 2026-04-15
36 PDF skills / tools
Agent-ready

2026 PDF Skills レポート:Codex、Claude Code、OpenClaw、Trae 向け導入・選定ガイド

2026年のPDF skills選定では、能力そのものだけでなく、それらをCodex、Claude Code、OpenClaw、Traeのようなエージェントにどう導入し、運用し、本番化するかが重要になっています。

最重要ポイント

PDF skill の可用性はモデル名より導入形態で決まります。

ネイティブ対応が最強

Claude Code は skills、MCP、plugins の三層が最も明確で、OpenClaw も workspace skills が強力です。

最も実用的な OSS 基盤

OCRmyPDF、Docling、MinerU、PyMuPDF、qpdf は 2026 年時点でも有力なローカル OSS の組み合わせです。

高価値なクローズド層

Reflo、DeepL、Adobe、OpenAI、Anthropic などは精度や統制を重視する組織に向きます。

要点

2026年4月15日時点で重要なのは、どのPDFアプリが最強かではなく、どのPDF skillが実際のエージェント基盤に安全に導入され、本番運用に乗るかです。

主要判断
  • 2026-04-15時点で、OpenClaw と Trae Agent は明確なオープンソース実装を持ち、Claude Code も公式 GitHub repo を公開しています。Codex CLI はオープンソースですが、Codex app / cloud は依然としてマネージド製品層です。
  • PDF ワークフローでは、CLI / Python / Java ライブラリが 4 種の agent に最も横断的に使える導入形態です。MCP は Claude Code と Trae で特に強く、Codex と OpenClaw ではラッパー層として使う方が安定します。
  • GUI 型 PDF ツールも agent で使えますが、CLI / API に比べると安定性と監査性で不利になりやすいです。
エージェント導入

OpenClaw、Claude Code、Codex、TraeでPDF skillsを導入する方法

以下は2026-04-15時点で公式に確認できた情報に基づき、ネイティブ対応、ラッパー経由、GUI中心という違いを分けて整理しています。

Codex

Install the CLI or IDE first, then package PDF tooling with AGENTS.md and skills

ハイブリッド
向いている用途: PDF automation inside codebases, batch scripts, document understanding, and translation-delivery workflows

導入形態

  • Install Codex CLI with `npm install -g @openai/codex` or `brew install --cask codex`.
  • Add `AGENTS.md` at the repo root and document the PDF workflow, test commands, and permission boundaries.
  • Package PDF tooling as repo scripts such as `tools/pdf/run_ocr.sh` or `tools/pdf/parse_docling.py`.
  • If you use Codex skills in the app, CLI, or IDE, bundle instructions, resources, and scripts as reusable skills.

能力と限界

  • Public documentation now confirms both Skills and AGENTS.md.
  • The CLI is open-source, while the app and cloud remain managed product surfaces.
  • The safest integration path for PDF skills is still repo-level scripts plus AGENTS.md.

Claude Code

Four official extension paths: skills, plugins, MCP, and CLAUDE.md

ハイブリッド
向いている用途: Teams that want the clearest official extension model and reusable PDF skills as durable team assets

導入形態

  • Install Claude Code with `curl -fsSL https://claude.ai/install.sh | bash`, or use Homebrew / WinGet.
  • Native skills live in `~/.claude/skills/<skill>/SKILL.md` or project-level `.claude/skills/<skill>/SKILL.md`.
  • Use `claude mcp add ...` to connect local stdio servers, remote HTTP servers, or OAuth-backed tools.
  • Bundle skills, agents, hooks, and MCP servers into plugins when you need a sharable team distribution format.

能力と限界

  • Its public documentation is the most explicit across skills, plugins, and MCP.
  • It works well for both native skills and MCP wrappers around OCR, parsing, translation, and RAG services.
  • The core CLI has an official GitHub repo, while the model and service layer remain proprietary.

OpenClaw

Workspace skills, plugins, ClawHub, and a gateway make it the closest thing to a personal agent OS

オープン
向いている用途: Personal AI assistants, multi-channel automation, and mixed browser / desktop / shell PDF workflows

導入形態

  • Install OpenClaw from the official repo or install script; the main runtime entry is the Gateway.
  • Workspace skills live in `~/.openclaw/workspace/skills/<skill>/SKILL.md`.
  • Use plugins when a PDF workflow also needs channels, host integrations, or system capabilities.
  • If ClawHub is enabled, agents can search and fetch skills, but production setups should still whitelist and review them.

能力と限界

  • The official README documents workspace roots, skills paths, and ClawHub behavior clearly.
  • It is stronger than pure IDE agents when browser, desktop, or host-command automation matters.
  • It is also the most open, which means permission control and supply-chain review matter more.

Trae

Trae IDE uses Agent Skills, @Agent, and MCP; the OSS Trae Agent uses YAML plus MCP

ハイブリッド
向いている用途: IDE collaboration, multi-agent orchestration, and research-oriented or extensible coding-agent setups

導入形態

  • Install Trae IDE or SOLO from the official download page when you want the desktop product surface.
  • The official Trae blog already documents Agent Skills creation, import, usage, and MCP support through `@Agent`.
  • For the open-source agent path, use `git clone https://github.com/bytedance/trae-agent.git && uv sync --all-extras`.
  • Add `mcp_servers` in the `trae-agent` config to attach external PDF skills and document tools.

能力と限界

  • Trae Agent has an official MIT-licensed GitHub repo.
  • The Trae IDE and SOLO product surfaces publicly point to Agent Skills and MCP usage.
  • Use the open agent when you need tighter control; add the IDE when visual workflows matter.
互換性

どのエージェントがどのPDF skillパッケージ形態を使えるか

『PDFを扱える』ことと『あらゆるPDF skillを扱える』ことは同じではありません。実運用では、skillの導入形態が互換性を左右します。

導入形態CodexClaude CodeOpenClawTrae判定
Native skills / commands直接利用可ネイティブネイティブ直接利用可Claude Code is the clearest today; OpenClaw has workspace skills; Trae has Agent Skills; Codex publicly confirms Skills but exposes fewer file-system details.
Repo rules files (AGENTS.md / CLAUDE.md / Rules)ネイティブ直接利用可直接利用可直接利用可All four agent families can consume this layer; it is the most portable and least coupled way to inject team knowledge.
CLI / Python / Java libraries直接利用可直接利用可直接利用可直接利用可This is the most reusable packaging form across agent families and the best first layer to deploy.
MCP serverラッパー経由ネイティブラッパー経由直接利用可Claude Code is strongest natively; Trae also points clearly to MCP; Codex and OpenClaw usually benefit from MCP through wrappers, plugins, or gateways.
SaaS API / cloud service直接利用可直接利用可直接利用可直接利用可All four agent families can use this layer reliably when API keys are governed and packaged as tools or scripts.
Desktop GUI / RPA限定的限定的直接利用可ラッパー経由OpenClaw is friendlier to browser and desktop control; Codex and Claude Code should not treat GUI automation as the primary path.
カタログ

36のPDF skills / tools:オープンソース、クローズド、GitHub、導入形態

ここではskillsを、実際に導入できる構成要素として整理しています。オープンソースはGitHubを、クローズド製品は公式入口を掲載しています。

Skill / Toolカテゴリ公開形態導入形態GitHub / 公式向いている用途メモ
Tesseract OCROCRオープンCLI / ライブラリ
汎用OCR多言語OCR
ローカルOSS基盤に向く前処理品質の影響が大きい
OCRmyPDFOCRオープンCLI / ライブラリ
検索可能PDF出力agent前処理
ローカルOSS基盤に向く本番運用でよく使われる
PaddleOCROCRオープンCLI / ライブラリ
多言語OCR企業フォームと契約
中国語ワークフローに強い本番運用でよく使われる
docTROCRオープンCLI / ライブラリ
汎用OCR企業フォームと契約
研究用途に向く前処理品質の影響が大きい
DoclingPDF解析オープンCLI / ライブラリ
LLM向け構造化複雑レイアウト
パイプライン基盤に向くMCPと特に相性が良い
docling-mcpPDF解析オープンMCP
MCP連携向きLLM向け構造化
MCPと特に相性が良いパイプライン基盤に向く
GROBIDPDF解析オープンCLI / ライブラリ
学術論文研究・技術PDF
研究用途に向く本番運用でよく使われる
NougatPDF解析オープンCLI / ライブラリ
学術論文数式の多い文書
研究用途に向く汎用OCRではない
MinerUPDF解析オープンCLI / ライブラリ
複雑レイアウト数式の多い文書
複雑レイアウトに強い本番運用でよく使われる
PyMuPDFPDF操作オープンCLI / ライブラリ
高性能ランタイム軽量PDF操作
本番運用でよく使われるパイプライン基盤に向く
PyMuPDF4LLMPDF操作オープンCLI / ライブラリ
agent前処理LLM向け構造化
パイプライン基盤に向く本番運用でよく使われる
pypdfPDF操作オープンCLI / ライブラリ
軽量PDF操作PDF構造操作
Pure Python向きパイプライン基盤に向く
pdfplumber表抽出オープンCLI / ライブラリ
表デバッグテキスト表
デバッグしやすいパイプライン基盤に向く
Unstructured文書ETLオープンCLI / ライブラリ
文書チャンク化agent前処理
パイプライン基盤に向くチーム利用に向く
unstructured-api文書ETLオープンSaaS API
内部API層文書チャンク化
API-firstチーム利用に向く
Tabula表抽出オープンCLI / ライブラリ
テキスト表バッチ表抽出
汚れたスキャンには弱い本番運用でよく使われる
tabula-java表抽出オープンCLI / ライブラリ
バッチ表抽出Javaエンタープライズ
本番運用でよく使われるパイプライン基盤に向く
qpdfPDF操作オープンCLI / ライブラリ
PDF構造操作バッチ後処理
本番運用でよく使われるパイプライン基盤に向く
pdfcpuPDF操作オープンCLI / ライブラリ
バッチ後処理PDF構造操作
本番運用でよく使われるパイプライン基盤に向く
Apache PDFBoxPDF操作オープンCLI / ライブラリ
JavaエンタープライズPDF構造操作
本番運用でよく使われるチーム利用に向く
OpenAI PDF FilesRAG / 推論クローズドSaaS API
PDF推論文書横断検索
API-firstレイアウト再現より理解向き
OpenAI File SearchRAG / 推論クローズドSaaS API
文書横断検索チーム知識検索
API-firstチーム利用に向く
Claude PDF SupportRAG / 推論クローズドSaaS API
PDF推論研究・技術PDF
API-firstレイアウト再現より理解向き
Claude Citations知識Q&AクローズドSaaS API
根拠付き回答チーム知識検索
API-firstチーム利用に向く
Mistral OCRエンタープライズ文書AIクローズドSaaS API
クラウドOCR API複雑レイアウト
API-firstコストとベンダー依存が増える
Mathpix PDF to MarkdownPDF解析クローズドSaaS API
数式の多い文書学術論文
研究用途に向くコストとベンダー依存が増える
Google Document AIエンタープライズ文書AIクローズドSaaS API
企業フォームと契約内部API層
企業向け寄りAPI-first
Azure Document Intelligenceエンタープライズ文書AIクローズドSaaS API
企業フォームと契約クラウドOCR API
企業向け寄りAPI-first
Amazon Textractエンタープライズ文書AIクローズドSaaS API
企業フォームと契約クラウドOCR API
企業向け寄りAPI-first
Adobe Acrobat AI AssistantデスクトップPDFクローズドデスクトップ GUI / RPA
デスクトップレビューチーム知識検索
GUI-firstラッパー自動化が必要になりやすい
Adobe Translate PDF翻訳クローズドデスクトップ GUI / RPA
デスクトップ翻訳フロー多言語納品
GUI-first高価値な翻訳レイヤー
ABBYY FineReader PDFデスクトップPDFクローズドデスクトップ GUI / RPA
デスクトップOCRと校正検索可能PDF出力
GUI-first企業向け寄り
Nanonets請求書自動化クローズドSaaS API
請求書とレシート内部API層
API-first企業向け寄り
Rossum請求書自動化クローズドSaaS API
請求書とレシート企業フォームと契約
企業向け寄りAPI-first
Parseurテンプレート抽出クローズドSaaS API
テンプレート抽出内部API層
API-first本番運用でよく使われる
Reflo翻訳クローズドSaaS API
多言語納品デスクトップ翻訳フロー
高価値な翻訳レイヤー複雑レイアウトに強い
DeepL Files + Glossary翻訳クローズドSaaS API
用語集主導翻訳多言語納品
高価値な翻訳レイヤーチーム利用に向く
Smallpdf Translate PDF翻訳クローズドデスクトップ GUI / RPA
軽量な簡易翻訳デスクトップ翻訳フロー
GUI-firstラッパー自動化が必要になりやすい
iLovePDF Translate PDF翻訳クローズドデスクトップ GUI / RPA
軽量な簡易翻訳デスクトップ翻訳フロー
GUI-firstラッパー自動化が必要になりやすい
PDFgear ChatPDF知識Q&Aクローズドデスクトップ GUI / RPA
デスクトップPDFチャットPDF推論
GUI-firstラッパー自動化が必要になりやすい
UPDF Chat with PDF知識Q&Aクローズドデスクトップ GUI / RPA
デスクトップPDFチャットPDF推論
GUI-firstラッパー自動化が必要になりやすい
AskYourPDF知識Q&AクローズドSaaS API
PDF推論チーム知識検索
API-firstレイアウト再現より理解向き
Humata知識Q&AクローズドSaaS API
チーム知識検索文書横断検索
API-firstチーム利用に向く
導入設計

本番向けPDFエージェントは単品ではなくスタックで考える

実運用に耐えるPDFエージェントは、エージェント本体、PDF skills、ラッパー層、権限制御、サンプル文書による回帰テストを組み合わせて構成する必要があります。

Blueprint A: Local-first open-source PDF agent baseline

適したチーム: Privacy-sensitive teams that want control, lower vendor dependency, and are willing to operate their own stack

推奨スタック

  • Agent: Claude Code or OpenClaw, with Trae Agent OSS as a strong alternative
  • OCR: Tesseract + OCRmyPDF + PaddleOCR
  • Parsing: Docling / MinerU / GROBID / Nougat
  • Operations: PyMuPDF + pypdf + qpdf + pdfcpu
  • Tables: pdfplumber + Tabula / tabula-java

導入手順

  • Install PDF capabilities first as CLI tools and Python scripts instead of starting with GUI products.
  • Package those scripts as reusable skills for each agent family: `.claude/skills`, OpenClaw workspace skills, Trae Agent Skills or YAML, and Codex repo scripts plus AGENTS.md.
  • Prepare 5 to 10 sample documents per document type and run regression checks for OCR, tables, formulas, and reading order.

主なリスク

  • Self-hosted stacks cost more to maintain than SaaS layers.
  • Accuracy can drop on complex layouts and low-resource languages.
  • Permissions, logging, and regression governance remain your responsibility.

Blueprint B: Enterprise API-centered PDF agent platform

適したチーム: Enterprises that already run cloud infrastructure and care about SLA, auditability, identity, and compliance

推奨スタック

  • Agent: Claude Code or Trae, with Codex covering the code and automation layer
  • OCR / extraction: Google Document AI / Azure Document Intelligence / Amazon Textract
  • Knowledge layer: OpenAI PDF Files + File Search or Claude PDF + citations
  • Business flow tools: Nanonets / Rossum / Parseur
  • Post-processing: qpdf / pypdf / PyMuPDF

導入手順

  • Wrap closed cloud services behind internal APIs or MCP wrappers instead of wiring every vendor directly into the agent.
  • Route contracts, invoices, research PDFs, and branded collateral through different queues rather than sharing a single prompt chain.
  • Put permissions and audit controls in the orchestration layer, not inside prompts.

主なリスク

  • Vendor lock-in and cost growth remain real risks.
  • API output structures may drift after model or service upgrades.
  • Cross-border data flow and compliance boundaries must be reviewed in advance.

Blueprint C: Multilingual PDF delivery stack

適したチーム: Teams handling papers, manuals, contracts, overseas sales assets, and multilingual branded materials

推奨スタック

  • Agent: Codex or Claude Code for orchestration, batching, review, and download flows
  • Delivery translation layer: Reflo
  • Terminology layer: DeepL Glossary or an internal termbase
  • Post-processing ecosystem: Adobe Acrobat / Adobe Translate PDF
  • Quality control: PyMuPDF / qpdf / pdfcpu

導入手順

  • Define termbases, language pairs, and document classes before letting the agent run batch orchestration.
  • Route high-value files through the Reflo / DeepL / Adobe combination and reserve lighter products for lower-risk content.
  • Keep a human side-by-side review step before any customer-facing delivery.

主なリスク

  • The closed translation layer costs more than a purely open-source stack.
  • Complex PDFs still require sampled human QA.
  • Errors in branded materials and contracts are expensive, so review gates remain mandatory.
方法論

方法とエビデンス基準

確認日: 2026-04-15
情報源の種類: 公式製品ページ、公式GitHub、ヘルプセンター、開発者向けドキュメント、導入ドキュメント
調査対象: 4つのエージェント基盤、36のPDF skills / tools、6つの導入形態、3つの実装ブループリント
  • 一次証拠として採用したのは、公式プロダクトページ、公式 GitHub repo、公式ヘルプセンター、公式開発者向けドキュメントのみです。
  • 導入可能性は、native skills、repo rules、CLI / libraries、MCP、SaaS API、GUI / RPA の6形態に分解して評価しました。
  • agent 互換性はマーケティング文言ではなく、skills、commands、plugins、MCP、workspace files、CLI、API などの公式公開有無で判断しました。
  • Codex では Skills と AGENTS.md の存在が確認できていますが、native skills の公開仕様は Claude Code ほど詳細ではないため、一部は実装ガイダンスとして扱っています。
ソース

公式ソース一覧

EEATを担保するため、引用元は公式ドメイン、公式GitHub、公式ヘルプセンター、公式開発者ドキュメントを優先しています。推定は明示的に区別しています。

FAQ

よくある質問

Claude Code はオープンソースですか、それともクローズドですか?

2026-04-15 時点では公式 GitHub repo があり、CLI は公開されています。一方でモデルとサービス層は依然としてプロプライエタリです。

Codex は Claude Code のように PDF skills を直接導入できますか?

できますが、最も安定した公開パターンは AGENTS.md と repo scripts と PDF CLI / API ツールの組み合わせです。

OpenClaw は GUI 型の PDF ツールと相性が良いですか?

良いです。特にブラウザやデスクトップ連携が必要な場合に強みがありますが、CLI / API より安定しないことがあります。

Trae はオープンソースですか?

Trae Agent の GitHub repo は MIT で公開されていますが、Trae IDE / SOLO は商用プロダクト面としての性格が強いです。

最小構成の PDF agent を作るなら何から入れるべきですか?

OCRmyPDF、Docling または MinerU、PyMuPDF / pypdf、qpdf を先に入れ、必要に応じて OpenAI / Claude / Reflo / DeepL を重ねるのが無難です。

最終提言

まず導入形態を選び、次にPDF skillを選び、最後にモデルを選ぶ

2026年のPDF agent設計では、CLI / API / MCPとして導入できること、監査性、権限制御が、モデル名そのものより重要です。多言語PDF納品ではReflo + DeepL / Adobeが有力で、ローカルOSS基盤としてはOCRmyPDF、Docling、MinerU、PyMuPDF、qpdfが実用的です。

2026 PDF Skills レポート:Codex、Claude Code、OpenClaw、Trae 向け導入・選定ガイド