Edition 2026
Verifie le: 2026-04-15
36 PDF skills / tools
Agent-ready

Rapport 2026 sur les PDF Skills : guide complet d'installation et de selection pour Codex, Claude Code, OpenClaw et Trae

En 2026, evaluer des PDF skills consiste moins a comparer des fonctions isolees qu'a comprendre comment elles s'installent, se gouvernent et passent en production dans Codex, Claude Code, OpenClaw et Trae.

Constat principal

La capacite d'un agent a utiliser un PDF skill depend d'abord de la forme d'installation, pas du nom du modele.

Support natif le plus clair

Claude Code est le plus explicite sur skills, MCP et plugins; OpenClaw est egalement solide sur les workspace skills.

Base open source la plus pratique

OCRmyPDF, Docling, MinerU, PyMuPDF et qpdf restent la combinaison open source locale la plus utile en 2026.

Couche fermee a forte valeur

Reflo, DeepL, Adobe, OpenAI, Anthropic, Mistral, Google, Azure et AWS conviennent mieux aux equipes prioritaires sur la precision ou la gouvernance.

Point cle

Au 15 avril 2026, la bonne question n'est plus quelle application PDF semble la meilleure, mais quels PDF skills peuvent etre installes, audites et exploites dans de vrais stacks d'agents.

Jugement principal
  • Au 2026-04-15, OpenClaw et Trae Agent publient clairement du code open source ; Claude Code dispose lui aussi d'un repo GitHub officiel. Codex CLI est open source, tandis que Codex app / cloud restent des surfaces produit gerees.
  • Pour les workflows PDF, les bibliotheques CLI / Python / Java sont la forme d'installation la plus portable entre les quatre familles d'agents. MCP est le mieux documente chez Claude Code et Trae ; chez Codex et OpenClaw, il fonctionne souvent mieux comme couche wrapper.
  • Les outils PDF GUI de bureau restent utilisables, mais ils sont generalement moins stables et moins auditables que les chemins CLI / API.
Installation agents

Comment OpenClaw, Claude Code, Codex et Trae installent des PDF skills

Les conclusions ci-dessous reposent sur des sources officielles verifiables au 2026-04-15 et distinguent clairement support natif, voie wrapper et parcours centric GUI.

Codex

Install the CLI or IDE first, then package PDF tooling with AGENTS.md and skills

Hybride
Ideal pour: PDF automation inside codebases, batch scripts, document understanding, and translation-delivery workflows

Forme d'installation

  • Install Codex CLI with `npm install -g @openai/codex` or `brew install --cask codex`.
  • Add `AGENTS.md` at the repo root and document the PDF workflow, test commands, and permission boundaries.
  • Package PDF tooling as repo scripts such as `tools/pdf/run_ocr.sh` or `tools/pdf/parse_docling.py`.
  • If you use Codex skills in the app, CLI, or IDE, bundle instructions, resources, and scripts as reusable skills.

Capacites et limites

  • Public documentation now confirms both Skills and AGENTS.md.
  • The CLI is open-source, while the app and cloud remain managed product surfaces.
  • The safest integration path for PDF skills is still repo-level scripts plus AGENTS.md.

Claude Code

Four official extension paths: skills, plugins, MCP, and CLAUDE.md

Hybride
Ideal pour: Teams that want the clearest official extension model and reusable PDF skills as durable team assets

Forme d'installation

  • Install Claude Code with `curl -fsSL https://claude.ai/install.sh | bash`, or use Homebrew / WinGet.
  • Native skills live in `~/.claude/skills/<skill>/SKILL.md` or project-level `.claude/skills/<skill>/SKILL.md`.
  • Use `claude mcp add ...` to connect local stdio servers, remote HTTP servers, or OAuth-backed tools.
  • Bundle skills, agents, hooks, and MCP servers into plugins when you need a sharable team distribution format.

Capacites et limites

  • Its public documentation is the most explicit across skills, plugins, and MCP.
  • It works well for both native skills and MCP wrappers around OCR, parsing, translation, and RAG services.
  • The core CLI has an official GitHub repo, while the model and service layer remain proprietary.

OpenClaw

Workspace skills, plugins, ClawHub, and a gateway make it the closest thing to a personal agent OS

Open source
Ideal pour: Personal AI assistants, multi-channel automation, and mixed browser / desktop / shell PDF workflows

Forme d'installation

  • Install OpenClaw from the official repo or install script; the main runtime entry is the Gateway.
  • Workspace skills live in `~/.openclaw/workspace/skills/<skill>/SKILL.md`.
  • Use plugins when a PDF workflow also needs channels, host integrations, or system capabilities.
  • If ClawHub is enabled, agents can search and fetch skills, but production setups should still whitelist and review them.

Capacites et limites

  • The official README documents workspace roots, skills paths, and ClawHub behavior clearly.
  • It is stronger than pure IDE agents when browser, desktop, or host-command automation matters.
  • It is also the most open, which means permission control and supply-chain review matter more.

Trae

Trae IDE uses Agent Skills, @Agent, and MCP; the OSS Trae Agent uses YAML plus MCP

Hybride
Ideal pour: IDE collaboration, multi-agent orchestration, and research-oriented or extensible coding-agent setups

Forme d'installation

  • Install Trae IDE or SOLO from the official download page when you want the desktop product surface.
  • The official Trae blog already documents Agent Skills creation, import, usage, and MCP support through `@Agent`.
  • For the open-source agent path, use `git clone https://github.com/bytedance/trae-agent.git && uv sync --all-extras`.
  • Add `mcp_servers` in the `trae-agent` config to attach external PDF skills and document tools.

Capacites et limites

  • Trae Agent has an official MIT-licensed GitHub repo.
  • The Trae IDE and SOLO product surfaces publicly point to Agent Skills and MCP usage.
  • Use the open agent when you need tighter control; add the IDE when visual workflows matter.
Compatibilite

Quels agents peuvent vraiment utiliser quelles formes de packaging PDF skill

Prendre en charge le PDF ne signifie pas prendre en charge tous les PDF skills. La compatibilite depend de la forme d'installation: skill natif, regles de repo, CLI, MCP, API SaaS ou GUI/RPA.

Forme d'installationCodexClaude CodeOpenClawTraeVerdict
Native skills / commandsDirectNatifNatifDirectClaude Code is the clearest today; OpenClaw has workspace skills; Trae has Agent Skills; Codex publicly confirms Skills but exposes fewer file-system details.
Repo rules files (AGENTS.md / CLAUDE.md / Rules)NatifDirectDirectDirectAll four agent families can consume this layer; it is the most portable and least coupled way to inject team knowledge.
CLI / Python / Java librariesDirectDirectDirectDirectThis is the most reusable packaging form across agent families and the best first layer to deploy.
MCP serverWrapperNatifWrapperDirectClaude Code is strongest natively; Trae also points clearly to MCP; Codex and OpenClaw usually benefit from MCP through wrappers, plugins, or gateways.
SaaS API / cloud serviceDirectDirectDirectDirectAll four agent families can use this layer reliably when API keys are governed and packaged as tools or scripts.
Desktop GUI / RPALimiteLimiteDirectWrapperOpenClaw is friendlier to browser and desktop control; Codex and Claude Code should not treat GUI automation as the primary path.
Catalogue

36 PDF skills / tools avec statut open vs closed, GitHub et installabilite

Le catalogue traite les skills comme des briques installables: bibliotheques open source, CLI, serveurs MCP, API SaaS et produits desktop.

Skill / ToolCategorieOuvert ou fermeForme d'installationGitHub / officielIdeal pourNote
Tesseract OCROCROpen sourceCLI / bibliotheque
OCR generalOCR multilingue
Bonne base open source localeDepend beaucoup du pretraitement
OCRmyPDFOCROpen sourceCLI / bibliotheque
PDF searchablePretraitement pour agents
Bonne base open source localeFrequent en production
PaddleOCROCROpen sourceCLI / bibliotheque
OCR multilingueFormulaires et contrats enterprise
Fort sur les workflows chinoisFrequent en production
docTROCROpen sourceCLI / bibliotheque
OCR generalFormulaires et contrats enterprise
Adapte a la rechercheDepend beaucoup du pretraitement
DoclingParsing PDFOpen sourceCLI / bibliotheque
Structuration prete pour LLMMises en page complexes
Bon composant de pipelineParticulierement bon avec MCP
docling-mcpParsing PDFOpen sourceMCP
Bon pour MCPStructuration prete pour LLM
Particulierement bon avec MCPBon composant de pipeline
GROBIDParsing PDFOpen sourceCLI / bibliotheque
Articles academiquesPDF techniques et de recherche
Adapte a la rechercheFrequent en production
NougatParsing PDFOpen sourceCLI / bibliotheque
Articles academiquesDocuments riches en formules
Adapte a la recherchePas un OCR generaliste
MinerUParsing PDFOpen sourceCLI / bibliotheque
Mises en page complexesDocuments riches en formules
Fort sur les mises en page complexesFrequent en production
PyMuPDFOperations PDFOpen sourceCLI / bibliotheque
Runtime haute performanceOperations PDF legeres
Frequent en productionBon composant de pipeline
PyMuPDF4LLMOperations PDFOpen sourceCLI / bibliotheque
Pretraitement pour agentsStructuration prete pour LLM
Bon composant de pipelineFrequent en production
pypdfOperations PDFOpen sourceCLI / bibliotheque
Operations PDF legeresOperations de structure PDF
Compatible Python purBon composant de pipeline
pdfplumberExtraction de tableauxOpen sourceCLI / bibliotheque
Debug de tableauxTableaux textuels
Pratique pour le debugBon composant de pipeline
UnstructuredETL documentaireOpen sourceCLI / bibliotheque
Decoupage documentairePretraitement pour agents
Bon composant de pipelineBien adapte aux equipes
unstructured-apiETL documentaireOpen sourceAPI SaaS
Couche API interneDecoupage documentaire
API-firstBien adapte aux equipes
TabulaExtraction de tableauxOpen sourceCLI / bibliotheque
Tableaux textuelsExtraction de tableaux en lot
Faible sur les scans bruyantsFrequent en production
tabula-javaExtraction de tableauxOpen sourceCLI / bibliotheque
Extraction de tableaux en lotStacks enterprise Java
Frequent en productionBon composant de pipeline
qpdfOperations PDFOpen sourceCLI / bibliotheque
Operations de structure PDFPost-traitement en lot
Frequent en productionBon composant de pipeline
pdfcpuOperations PDFOpen sourceCLI / bibliotheque
Post-traitement en lotOperations de structure PDF
Frequent en productionBon composant de pipeline
Apache PDFBoxOperations PDFOpen sourceCLI / bibliotheque
Stacks enterprise JavaOperations de structure PDF
Frequent en productionBien adapte aux equipes
OpenAI PDF FilesRAG / raisonnementFermeAPI SaaS
Raisonnement sur PDFRecherche interdocuments
API-firstPlus fort en raisonnement qu'en fidelite de mise en page
OpenAI File SearchRAG / raisonnementFermeAPI SaaS
Recherche interdocumentsRecherche de connaissance d'equipe
API-firstBien adapte aux equipes
Claude PDF SupportRAG / raisonnementFermeAPI SaaS
Raisonnement sur PDFPDF techniques et de recherche
API-firstPlus fort en raisonnement qu'en fidelite de mise en page
Claude CitationsQ&A documentaireFermeAPI SaaS
Reponses avec sourcesRecherche de connaissance d'equipe
API-firstBien adapte aux equipes
Mistral OCRDocument AI enterpriseFermeAPI SaaS
API OCR cloudMises en page complexes
API-firstAjoute cout et dependance fournisseur
Mathpix PDF to MarkdownParsing PDFFermeAPI SaaS
Documents riches en formulesArticles academiques
Adapte a la rechercheAjoute cout et dependance fournisseur
Google Document AIDocument AI enterpriseFermeAPI SaaS
Formulaires et contrats enterpriseCouche API interne
Oriente enterpriseAPI-first
Azure Document IntelligenceDocument AI enterpriseFermeAPI SaaS
Formulaires et contrats enterpriseAPI OCR cloud
Oriente enterpriseAPI-first
Amazon TextractDocument AI enterpriseFermeAPI SaaS
Formulaires et contrats enterpriseAPI OCR cloud
Oriente enterpriseAPI-first
Adobe Acrobat AI AssistantPDF desktopFermeGUI desktop / RPA
Revue desktopRecherche de connaissance d'equipe
GUI-firstNecessite souvent un wrapper
Adobe Translate PDFTraductionFermeGUI desktop / RPA
Flux de traduction desktopLivraison multilingue
GUI-firstCouche de traduction a forte valeur
ABBYY FineReader PDFPDF desktopFermeGUI desktop / RPA
OCR et revue desktopPDF searchable
GUI-firstOriente enterprise
NanonetsAutomatisation des facturesFermeAPI SaaS
Factures et recusCouche API interne
API-firstOriente enterprise
RossumAutomatisation des facturesFermeAPI SaaS
Factures et recusFormulaires et contrats enterprise
Oriente enterpriseAPI-first
ParseurExtraction par modeleFermeAPI SaaS
Extraction guidee par modeleCouche API interne
API-firstFrequent en production
RefloTraductionFermeAPI SaaS
Livraison multilingueFlux de traduction desktop
Couche de traduction a forte valeurFort sur les mises en page complexes
DeepL Files + GlossaryTraductionFermeAPI SaaS
Traduction guidee par terminologieLivraison multilingue
Couche de traduction a forte valeurBien adapte aux equipes
Smallpdf Translate PDFTraductionFermeGUI desktop / RPA
Traduction rapide grand publicFlux de traduction desktop
GUI-firstNecessite souvent un wrapper
iLovePDF Translate PDFTraductionFermeGUI desktop / RPA
Traduction rapide grand publicFlux de traduction desktop
GUI-firstNecessite souvent un wrapper
PDFgear ChatPDFQ&A documentaireFermeGUI desktop / RPA
Chat PDF sur desktopRaisonnement sur PDF
GUI-firstNecessite souvent un wrapper
UPDF Chat with PDFQ&A documentaireFermeGUI desktop / RPA
Chat PDF sur desktopRaisonnement sur PDF
GUI-firstNecessite souvent un wrapper
AskYourPDFQ&A documentaireFermeAPI SaaS
Raisonnement sur PDFRecherche de connaissance d'equipe
API-firstPlus fort en raisonnement qu'en fidelite de mise en page
HumataQ&A documentaireFermeAPI SaaS
Recherche de connaissance d'equipeRecherche interdocuments
API-firstBien adapte aux equipes
Solution

Une solution PDF-agent de production est un stack, pas une liste d'achats

Une solution solide combine l'agent, les PDF skills, une couche de packaging, un controle des permissions et des tests de regression sur des documents reels.

Blueprint A: Local-first open-source PDF agent baseline

Convient a: Privacy-sensitive teams that want control, lower vendor dependency, and are willing to operate their own stack

Stack recommande

  • Agent: Claude Code or OpenClaw, with Trae Agent OSS as a strong alternative
  • OCR: Tesseract + OCRmyPDF + PaddleOCR
  • Parsing: Docling / MinerU / GROBID / Nougat
  • Operations: PyMuPDF + pypdf + qpdf + pdfcpu
  • Tables: pdfplumber + Tabula / tabula-java

Mise en oeuvre

  • Install PDF capabilities first as CLI tools and Python scripts instead of starting with GUI products.
  • Package those scripts as reusable skills for each agent family: `.claude/skills`, OpenClaw workspace skills, Trae Agent Skills or YAML, and Codex repo scripts plus AGENTS.md.
  • Prepare 5 to 10 sample documents per document type and run regression checks for OCR, tables, formulas, and reading order.

Risques principaux

  • Self-hosted stacks cost more to maintain than SaaS layers.
  • Accuracy can drop on complex layouts and low-resource languages.
  • Permissions, logging, and regression governance remain your responsibility.

Blueprint B: Enterprise API-centered PDF agent platform

Convient a: Enterprises that already run cloud infrastructure and care about SLA, auditability, identity, and compliance

Stack recommande

  • Agent: Claude Code or Trae, with Codex covering the code and automation layer
  • OCR / extraction: Google Document AI / Azure Document Intelligence / Amazon Textract
  • Knowledge layer: OpenAI PDF Files + File Search or Claude PDF + citations
  • Business flow tools: Nanonets / Rossum / Parseur
  • Post-processing: qpdf / pypdf / PyMuPDF

Mise en oeuvre

  • Wrap closed cloud services behind internal APIs or MCP wrappers instead of wiring every vendor directly into the agent.
  • Route contracts, invoices, research PDFs, and branded collateral through different queues rather than sharing a single prompt chain.
  • Put permissions and audit controls in the orchestration layer, not inside prompts.

Risques principaux

  • Vendor lock-in and cost growth remain real risks.
  • API output structures may drift after model or service upgrades.
  • Cross-border data flow and compliance boundaries must be reviewed in advance.

Blueprint C: Multilingual PDF delivery stack

Convient a: Teams handling papers, manuals, contracts, overseas sales assets, and multilingual branded materials

Stack recommande

  • Agent: Codex or Claude Code for orchestration, batching, review, and download flows
  • Delivery translation layer: Reflo
  • Terminology layer: DeepL Glossary or an internal termbase
  • Post-processing ecosystem: Adobe Acrobat / Adobe Translate PDF
  • Quality control: PyMuPDF / qpdf / pdfcpu

Mise en oeuvre

  • Define termbases, language pairs, and document classes before letting the agent run batch orchestration.
  • Route high-value files through the Reflo / DeepL / Adobe combination and reserve lighter products for lower-risk content.
  • Keep a human side-by-side review step before any customer-facing delivery.

Risques principaux

  • The closed translation layer costs more than a purely open-source stack.
  • Complex PDFs still require sampled human QA.
  • Errors in branded materials and contracts are expensive, so review gates remain mandatory.
Methodologie

Methode et modele de preuve

Date de verification: 2026-04-15
Types de sources: Pages officielles, GitHub officiels, centres d'aide, docs developpeur et docs d'installation
Objets etudies: 4 plateformes d'agents, 36 PDF skills / tools, 6 formes d'installation et 3 blueprints de solution
  • La couche de preuve ne retient que les pages produit officielles, les repos GitHub officiels, les centres d'aide et la documentation officielle pour developpeurs.
  • L'installabilite a ete decomposee en six formes: native skills, regles de repo, CLI / bibliotheques, MCP, API SaaS et GUI / RPA.
  • La compatibilite des agents a ete jugee d'apres l'existence officielle de skills, commands, plugins, MCP, workspace files, CLI ou APIs, et non d'apres le marketing.
  • Dans Codex, Skills et AGENTS.md sont confirmes, mais la specification publique des native skills reste moins explicite que dans Claude Code; certaines recommandations sont donc presentees comme guides d'implementation.
Sources

Liste des sources officielles

Pour rester aligne avec EEAT, ce rapport privilegie domaines officiels, GitHub officiels, centres d'aide et documentation officielle. Les inferences sont explicitement signalees.

FAQ

Questions frequentes

Claude Code est-il open source ou ferme ?

Au 2026-04-15, un repo GitHub officiel existe deja. En pratique, Claude Code doit etre considere comme hybride: un CLI ouvert et des couches modele/service proprietaires.

Codex peut-il installer des PDF skills comme Claude Code ?

Oui, mais la voie publique la plus sure reste AGENTS.md combine a des scripts de repo et des outils PDF en CLI ou via API.

OpenClaw convient-il aux outils PDF bases sur GUI ?

Oui, surtout quand navigateur, bureau et automatisation de l'hote comptent. Cependant, CLI / API reste en general plus stable.

Trae est-il open source ?

Trae Agent dispose d'un repo MIT officiel ouvert, tandis que Trae IDE / SOLO restent plus proches de surfaces produit commerciales et fermees.

Quel est le stack minimal viable pour un PDF agent fiable ?

Il est generalement preferable de commencer par OCRmyPDF, Docling ou MinerU, PyMuPDF / pypdf et qpdf, puis d'ajouter OpenAI, Claude, Reflo ou DeepL uniquement si necessaire.

Recommandation finale

Choisir d'abord la forme d'installation, ensuite le PDF skill, puis seulement le modele

En 2026, les systemes PDF-agent reussis dependent davantage de l'installabilite CLI/API/MCP, de l'auditabilite et du design des permissions que du branding du modele. Pour la livraison PDF multilingue, Reflo avec DeepL ou Adobe est solide; pour une base open source locale, OCRmyPDF, Docling, MinerU, PyMuPDF et qpdf restent le noyau pratique.

Rapport 2026 sur les PDF Skills : guide complet d'installation et de selection pour Codex, Claude Code, OpenClaw et Trae