Edicion 2026
Verificado: 2026-04-15
36 PDF skills / tools
Agent-ready

Informe 2026 de PDF Skills: Guia completa de instalacion y seleccion para Codex, Claude Code, OpenClaw y Trae

En 2026, evaluar PDF skills significa mirar mas alla de la capacidad aislada y centrarse en como se instala, empaqueta, gobierna y lleva a produccion dentro de Codex, Claude Code, OpenClaw y Trae.

Hallazgo principal

Que un agent pueda usar un PDF skill depende primero de la forma de instalacion y no del nombre del modelo.

Soporte nativo mas claro

Claude Code es el mas claro en skills, MCP y plugins; OpenClaw tambien destaca en workspace skills.

Base open source mas util

OCRmyPDF, Docling, MinerU, PyMuPDF y qpdf siguen formando la base local open source mas practica en 2026.

Capa cerrada de alto valor

Reflo, DeepL, Adobe, OpenAI, Anthropic, Mistral, Google, Azure y AWS encajan bien cuando pesan la precision y la gobernanza.

Idea central

A 15 de abril de 2026, la pregunta util ya no es que app PDF es mejor, sino que PDF skills pueden instalarse, auditarse y ejecutarse dentro de stacks reales de agents.

Juicio principal
  • A fecha de 2026-04-15, OpenClaw y Trae Agent publican codigo abierto de forma clara; Claude Code tambien tiene repositorio oficial en GitHub. Codex CLI es abierto, mientras que Codex app / cloud siguen siendo superficies gestionadas.
  • En flujos PDF, las librerias CLI / Python / Java son la forma de instalacion mas portable entre las cuatro familias de agents. MCP esta mejor documentado en Claude Code y Trae; en Codex y OpenClaw suele funcionar mejor como capa wrapper.
  • Las herramientas PDF de escritorio con GUI pueden usarse, pero suelen quedar por detras de CLI / API en estabilidad y auditabilidad.
Instalacion en agents

Como OpenClaw, Claude Code, Codex y Trae instalan PDF skills

Las conclusiones siguientes se basan en fuentes oficiales verificables al 2026-04-15 y diferencian soporte nativo, integracion por wrapper y rutas centradas en GUI.

Codex

Install the CLI or IDE first, then package PDF tooling with AGENTS.md and skills

Hibrido
Mejor para: PDF automation inside codebases, batch scripts, document understanding, and translation-delivery workflows

Forma de instalacion

  • Install Codex CLI with `npm install -g @openai/codex` or `brew install --cask codex`.
  • Add `AGENTS.md` at the repo root and document the PDF workflow, test commands, and permission boundaries.
  • Package PDF tooling as repo scripts such as `tools/pdf/run_ocr.sh` or `tools/pdf/parse_docling.py`.
  • If you use Codex skills in the app, CLI, or IDE, bundle instructions, resources, and scripts as reusable skills.

Capacidades y limites

  • Public documentation now confirms both Skills and AGENTS.md.
  • The CLI is open-source, while the app and cloud remain managed product surfaces.
  • The safest integration path for PDF skills is still repo-level scripts plus AGENTS.md.

Claude Code

Four official extension paths: skills, plugins, MCP, and CLAUDE.md

Hibrido
Mejor para: Teams that want the clearest official extension model and reusable PDF skills as durable team assets

Forma de instalacion

  • Install Claude Code with `curl -fsSL https://claude.ai/install.sh | bash`, or use Homebrew / WinGet.
  • Native skills live in `~/.claude/skills/<skill>/SKILL.md` or project-level `.claude/skills/<skill>/SKILL.md`.
  • Use `claude mcp add ...` to connect local stdio servers, remote HTTP servers, or OAuth-backed tools.
  • Bundle skills, agents, hooks, and MCP servers into plugins when you need a sharable team distribution format.

Capacidades y limites

  • Its public documentation is the most explicit across skills, plugins, and MCP.
  • It works well for both native skills and MCP wrappers around OCR, parsing, translation, and RAG services.
  • The core CLI has an official GitHub repo, while the model and service layer remain proprietary.

OpenClaw

Workspace skills, plugins, ClawHub, and a gateway make it the closest thing to a personal agent OS

Abierto
Mejor para: Personal AI assistants, multi-channel automation, and mixed browser / desktop / shell PDF workflows

Forma de instalacion

  • Install OpenClaw from the official repo or install script; the main runtime entry is the Gateway.
  • Workspace skills live in `~/.openclaw/workspace/skills/<skill>/SKILL.md`.
  • Use plugins when a PDF workflow also needs channels, host integrations, or system capabilities.
  • If ClawHub is enabled, agents can search and fetch skills, but production setups should still whitelist and review them.

Capacidades y limites

  • The official README documents workspace roots, skills paths, and ClawHub behavior clearly.
  • It is stronger than pure IDE agents when browser, desktop, or host-command automation matters.
  • It is also the most open, which means permission control and supply-chain review matter more.

Trae

Trae IDE uses Agent Skills, @Agent, and MCP; the OSS Trae Agent uses YAML plus MCP

Hibrido
Mejor para: IDE collaboration, multi-agent orchestration, and research-oriented or extensible coding-agent setups

Forma de instalacion

  • Install Trae IDE or SOLO from the official download page when you want the desktop product surface.
  • The official Trae blog already documents Agent Skills creation, import, usage, and MCP support through `@Agent`.
  • For the open-source agent path, use `git clone https://github.com/bytedance/trae-agent.git && uv sync --all-extras`.
  • Add `mcp_servers` in the `trae-agent` config to attach external PDF skills and document tools.

Capacidades y limites

  • Trae Agent has an official MIT-licensed GitHub repo.
  • The Trae IDE and SOLO product surfaces publicly point to Agent Skills and MCP usage.
  • Use the open agent when you need tighter control; add the IDE when visual workflows matter.
Compatibilidad

Que agents pueden usar realmente cada forma de empaquetar PDF skills

Soportar PDF no significa soportar todas las capacidades PDF. La compatibilidad real depende de la forma de instalacion: skills nativos, reglas del repo, CLI, MCP, APIs SaaS o GUI/RPA.

Forma de instalacionCodexClaude CodeOpenClawTraeVeredicto
Native skills / commandsDirectoNativoNativoDirectoClaude Code is the clearest today; OpenClaw has workspace skills; Trae has Agent Skills; Codex publicly confirms Skills but exposes fewer file-system details.
Repo rules files (AGENTS.md / CLAUDE.md / Rules)NativoDirectoDirectoDirectoAll four agent families can consume this layer; it is the most portable and least coupled way to inject team knowledge.
CLI / Python / Java librariesDirectoDirectoDirectoDirectoThis is the most reusable packaging form across agent families and the best first layer to deploy.
MCP serverWrapperNativoWrapperDirectoClaude Code is strongest natively; Trae also points clearly to MCP; Codex and OpenClaw usually benefit from MCP through wrappers, plugins, or gateways.
SaaS API / cloud serviceDirectoDirectoDirectoDirectoAll four agent families can use this layer reliably when API keys are governed and packaged as tools or scripts.
Desktop GUI / RPALimitadoLimitadoDirectoWrapperOpenClaw is friendlier to browser and desktop control; Codex and Claude Code should not treat GUI automation as the primary path.
Catalogo

36 PDF skills / tools con estado open vs closed, GitHub e instalabilidad

El catalogo trata los skills como bloques instalables: librerias open source, CLIs, servidores MCP, APIs SaaS y productos de escritorio.

Skill / ToolCategoriaAbierto o cerradoForma de instalacionGitHub / oficialMejor paraNota
Tesseract OCROCRAbiertoCLI / libreria
OCR generalOCR multilingue
Buena base open source localDepende del preprocesado
OCRmyPDFOCRAbiertoCLI / libreria
PDF buscablePreprocesamiento para agents
Buena base open source localComun en pipelines de produccion
PaddleOCROCRAbiertoCLI / libreria
OCR multilingueFormularios y contratos empresariales
Fuerte en flujos con chinoComun en pipelines de produccion
docTROCRAbiertoCLI / libreria
OCR generalFormularios y contratos empresariales
Adecuado para investigacionDepende del preprocesado
DoclingAnalisis PDFAbiertoCLI / libreria
Estructura lista para LLMLayouts complejos
Bueno como base de pipelineEspecialmente bueno con MCP
docling-mcpAnalisis PDFAbiertoMCP
Listo para MCPEstructura lista para LLM
Especialmente bueno con MCPBueno como base de pipeline
GROBIDAnalisis PDFAbiertoCLI / libreria
Articulos academicosPDF tecnicos y de investigacion
Adecuado para investigacionComun en pipelines de produccion
NougatAnalisis PDFAbiertoCLI / libreria
Articulos academicosDocumentos con muchas formulas
Adecuado para investigacionNo es un OCR generalista
MinerUAnalisis PDFAbiertoCLI / libreria
Layouts complejosDocumentos con muchas formulas
Fuerte en layouts complejosComun en pipelines de produccion
PyMuPDFOperaciones PDFAbiertoCLI / libreria
Runtime de alto rendimientoOperaciones PDF ligeras
Comun en pipelines de produccionBueno como base de pipeline
PyMuPDF4LLMOperaciones PDFAbiertoCLI / libreria
Preprocesamiento para agentsEstructura lista para LLM
Bueno como base de pipelineComun en pipelines de produccion
pypdfOperaciones PDFAbiertoCLI / libreria
Operaciones PDF ligerasOperaciones de estructura PDF
Amigable con Python puroBueno como base de pipeline
pdfplumberExtraccion de tablasAbiertoCLI / libreria
Depuracion de tablasTablas basadas en texto
Bueno para depurarBueno como base de pipeline
UnstructuredETL documentalAbiertoCLI / libreria
Chunking documentalPreprocesamiento para agents
Bueno como base de pipelineBueno para trabajo en equipo
unstructured-apiETL documentalAbiertoAPI SaaS
Capa API internaChunking documental
API-firstBueno para trabajo en equipo
TabulaExtraccion de tablasAbiertoCLI / libreria
Tablas basadas en textoExtraccion masiva de tablas
Flojo con escaneos ruidososComun en pipelines de produccion
tabula-javaExtraccion de tablasAbiertoCLI / libreria
Extraccion masiva de tablasStacks enterprise en Java
Comun en pipelines de produccionBueno como base de pipeline
qpdfOperaciones PDFAbiertoCLI / libreria
Operaciones de estructura PDFPostproceso por lotes
Comun en pipelines de produccionBueno como base de pipeline
pdfcpuOperaciones PDFAbiertoCLI / libreria
Postproceso por lotesOperaciones de estructura PDF
Comun en pipelines de produccionBueno como base de pipeline
Apache PDFBoxOperaciones PDFAbiertoCLI / libreria
Stacks enterprise en JavaOperaciones de estructura PDF
Comun en pipelines de produccionBueno para trabajo en equipo
OpenAI PDF FilesRAG / razonamientoCerradoAPI SaaS
Razonamiento sobre PDFBusqueda entre documentos
API-firstMejor para razonar que para fidelidad de layout
OpenAI File SearchRAG / razonamientoCerradoAPI SaaS
Busqueda entre documentosBusqueda de conocimiento de equipo
API-firstBueno para trabajo en equipo
Claude PDF SupportRAG / razonamientoCerradoAPI SaaS
Razonamiento sobre PDFPDF tecnicos y de investigacion
API-firstMejor para razonar que para fidelidad de layout
Claude CitationsPreguntas y respuestasCerradoAPI SaaS
Respuestas con evidenciaBusqueda de conocimiento de equipo
API-firstBueno para trabajo en equipo
Mistral OCRDocument AI empresarialCerradoAPI SaaS
API OCR en la nubeLayouts complejos
API-firstAnade coste y dependencia de proveedor
Mathpix PDF to MarkdownAnalisis PDFCerradoAPI SaaS
Documentos con muchas formulasArticulos academicos
Adecuado para investigacionAnade coste y dependencia de proveedor
Google Document AIDocument AI empresarialCerradoAPI SaaS
Formularios y contratos empresarialesCapa API interna
Orientado a empresaAPI-first
Azure Document IntelligenceDocument AI empresarialCerradoAPI SaaS
Formularios y contratos empresarialesAPI OCR en la nube
Orientado a empresaAPI-first
Amazon TextractDocument AI empresarialCerradoAPI SaaS
Formularios y contratos empresarialesAPI OCR en la nube
Orientado a empresaAPI-first
Adobe Acrobat AI AssistantPDF de escritorioCerradoGUI de escritorio / RPA
Revision de escritorioBusqueda de conocimiento de equipo
GUI-firstSuele requerir automatizacion wrapper
Adobe Translate PDFTraduccionCerradoGUI de escritorio / RPA
Flujo de traduccion de escritorioEntrega multilingue
GUI-firstCapa de traduccion de alto valor
ABBYY FineReader PDFPDF de escritorioCerradoGUI de escritorio / RPA
OCR y revision de escritorioPDF buscable
GUI-firstOrientado a empresa
NanonetsAutomatizacion de facturasCerradoAPI SaaS
Facturas y recibosCapa API interna
API-firstOrientado a empresa
RossumAutomatizacion de facturasCerradoAPI SaaS
Facturas y recibosFormularios y contratos empresariales
Orientado a empresaAPI-first
ParseurExtraccion por plantillaCerradoAPI SaaS
Extraccion guiada por plantillasCapa API interna
API-firstComun en pipelines de produccion
RefloTraduccionCerradoAPI SaaS
Entrega multilingueFlujo de traduccion de escritorio
Capa de traduccion de alto valorFuerte en layouts complejos
DeepL Files + GlossaryTraduccionCerradoAPI SaaS
Traduccion con termbaseEntrega multilingue
Capa de traduccion de alto valorBueno para trabajo en equipo
Smallpdf Translate PDFTraduccionCerradoGUI de escritorio / RPA
Traduccion rapida de consumoFlujo de traduccion de escritorio
GUI-firstSuele requerir automatizacion wrapper
iLovePDF Translate PDFTraduccionCerradoGUI de escritorio / RPA
Traduccion rapida de consumoFlujo de traduccion de escritorio
GUI-firstSuele requerir automatizacion wrapper
PDFgear ChatPDFPreguntas y respuestasCerradoGUI de escritorio / RPA
Chat PDF en escritorioRazonamiento sobre PDF
GUI-firstSuele requerir automatizacion wrapper
UPDF Chat with PDFPreguntas y respuestasCerradoGUI de escritorio / RPA
Chat PDF en escritorioRazonamiento sobre PDF
GUI-firstSuele requerir automatizacion wrapper
AskYourPDFPreguntas y respuestasCerradoAPI SaaS
Razonamiento sobre PDFBusqueda de conocimiento de equipo
API-firstMejor para razonar que para fidelidad de layout
HumataPreguntas y respuestasCerradoAPI SaaS
Busqueda de conocimiento de equipoBusqueda entre documentos
API-firstBueno para trabajo en equipo
Solucion

Una solucion PDF-agent de produccion es un stack, no una lista de compras

Una solucion real combina agent, PDF skills, capa de empaquetado, control de permisos y pruebas de regresion con documentos de ejemplo.

Blueprint A: Local-first open-source PDF agent baseline

Adecuado para: Privacy-sensitive teams that want control, lower vendor dependency, and are willing to operate their own stack

Stack recomendado

  • Agent: Claude Code or OpenClaw, with Trae Agent OSS as a strong alternative
  • OCR: Tesseract + OCRmyPDF + PaddleOCR
  • Parsing: Docling / MinerU / GROBID / Nougat
  • Operations: PyMuPDF + pypdf + qpdf + pdfcpu
  • Tables: pdfplumber + Tabula / tabula-java

Implementacion

  • Install PDF capabilities first as CLI tools and Python scripts instead of starting with GUI products.
  • Package those scripts as reusable skills for each agent family: `.claude/skills`, OpenClaw workspace skills, Trae Agent Skills or YAML, and Codex repo scripts plus AGENTS.md.
  • Prepare 5 to 10 sample documents per document type and run regression checks for OCR, tables, formulas, and reading order.

Riesgos principales

  • Self-hosted stacks cost more to maintain than SaaS layers.
  • Accuracy can drop on complex layouts and low-resource languages.
  • Permissions, logging, and regression governance remain your responsibility.

Blueprint B: Enterprise API-centered PDF agent platform

Adecuado para: Enterprises that already run cloud infrastructure and care about SLA, auditability, identity, and compliance

Stack recomendado

  • Agent: Claude Code or Trae, with Codex covering the code and automation layer
  • OCR / extraction: Google Document AI / Azure Document Intelligence / Amazon Textract
  • Knowledge layer: OpenAI PDF Files + File Search or Claude PDF + citations
  • Business flow tools: Nanonets / Rossum / Parseur
  • Post-processing: qpdf / pypdf / PyMuPDF

Implementacion

  • Wrap closed cloud services behind internal APIs or MCP wrappers instead of wiring every vendor directly into the agent.
  • Route contracts, invoices, research PDFs, and branded collateral through different queues rather than sharing a single prompt chain.
  • Put permissions and audit controls in the orchestration layer, not inside prompts.

Riesgos principales

  • Vendor lock-in and cost growth remain real risks.
  • API output structures may drift after model or service upgrades.
  • Cross-border data flow and compliance boundaries must be reviewed in advance.

Blueprint C: Multilingual PDF delivery stack

Adecuado para: Teams handling papers, manuals, contracts, overseas sales assets, and multilingual branded materials

Stack recomendado

  • Agent: Codex or Claude Code for orchestration, batching, review, and download flows
  • Delivery translation layer: Reflo
  • Terminology layer: DeepL Glossary or an internal termbase
  • Post-processing ecosystem: Adobe Acrobat / Adobe Translate PDF
  • Quality control: PyMuPDF / qpdf / pdfcpu

Implementacion

  • Define termbases, language pairs, and document classes before letting the agent run batch orchestration.
  • Route high-value files through the Reflo / DeepL / Adobe combination and reserve lighter products for lower-risk content.
  • Keep a human side-by-side review step before any customer-facing delivery.

Riesgos principales

  • The closed translation layer costs more than a purely open-source stack.
  • Complex PDFs still require sampled human QA.
  • Errors in branded materials and contracts are expensive, so review gates remain mandatory.
Metodologia

Metodo y modelo de evidencia

Fecha de verificacion: 2026-04-15
Tipos de fuente: Paginas oficiales, GitHub oficiales, centros de ayuda, docs de desarrollador y docs de instalacion
Objetos de estudio: 4 plataformas de agents, 36 PDF skills / tools, 6 formas de instalacion y 3 planos de solucion
  • La capa de evidencia incluye solo paginas oficiales de producto, repositorios oficiales de GitHub, centros de ayuda y documentacion oficial para desarrolladores.
  • La instalabilidad se descompuso en seis formas: skills nativos, reglas de repo, CLI / librerias, MCP, APIs SaaS y GUI / RPA.
  • La compatibilidad de agents se evaluo por superficies oficiales como skills, commands, plugins, MCP, workspace files, CLI o APIs, y no por lenguaje de marketing.
  • En Codex ya estan confirmados Skills y AGENTS.md, pero la especificacion publica de native skills sigue siendo menos explicita que en Claude Code; por eso algunas recomendaciones se tratan como guia de implementacion.
Fuentes

Lista de fuentes oficiales

Para mantener el enfoque EEAT, este informe prioriza dominios oficiales, GitHub oficiales, centros de ayuda y documentacion oficial. Las inferencias se marcan de forma explicita.

FAQ

Preguntas frecuentes

Claude Code es abierto o cerrado?

A 2026-04-15 ya existe un repo oficial en GitHub. En la practica debe verse como un modelo hibrido: CLI abierto y servicios/modelos propietarios.

Codex puede instalar PDF skills igual que Claude Code?

Si, pero la via publica mas segura sigue siendo AGENTS.md junto con scripts del repo y herramientas PDF por CLI o API.

OpenClaw es adecuado para herramientas PDF basadas en GUI?

Si, sobre todo cuando importan navegador, escritorio y automatizacion del host. Aun asi, CLI / API suele ser mas estable.

Trae es abierto o cerrado?

Trae Agent tiene repo oficial MIT abierto, mientras que Trae IDE / SOLO siguen pareciendo superficies comerciales mas cerradas.

Cual es el stack minimo viable para un PDF agent fiable?

Normalmente conviene empezar por OCRmyPDF, Docling o MinerU, PyMuPDF / pypdf y qpdf; luego se anaden OpenAI, Claude, Reflo o DeepL solo cuando hacen falta.

Recomendacion final

Primero la forma de instalacion, luego el PDF skill y al final la marca del modelo

En 2026, los sistemas PDF-agent mas solidos dependen mas de la instalabilidad via CLI/API/MCP, la auditabilidad y el diseno de permisos que del branding del modelo. Para entrega PDF multilingue, Reflo junto con DeepL o Adobe es fuerte; para una base local open source, OCRmyPDF, Docling, MinerU, PyMuPDF y qpdf siguen siendo el nucleo practico.

Informe 2026 de PDF Skills: Guia completa de instalacion y seleccion para Codex, Claude Code, OpenClaw y Trae