A 15 de abril de 2026, la pregunta util ya no es que app PDF es mejor, sino que PDF skills pueden instalarse, auditarse y ejecutarse dentro de stacks reales de agents.
- A fecha de 2026-04-15, OpenClaw y Trae Agent publican codigo abierto de forma clara; Claude Code tambien tiene repositorio oficial en GitHub. Codex CLI es abierto, mientras que Codex app / cloud siguen siendo superficies gestionadas.
- En flujos PDF, las librerias CLI / Python / Java son la forma de instalacion mas portable entre las cuatro familias de agents. MCP esta mejor documentado en Claude Code y Trae; en Codex y OpenClaw suele funcionar mejor como capa wrapper.
- Las herramientas PDF de escritorio con GUI pueden usarse, pero suelen quedar por detras de CLI / API en estabilidad y auditabilidad.
Como OpenClaw, Claude Code, Codex y Trae instalan PDF skills
Las conclusiones siguientes se basan en fuentes oficiales verificables al 2026-04-15 y diferencian soporte nativo, integracion por wrapper y rutas centradas en GUI.
Codex
Install the CLI or IDE first, then package PDF tooling with AGENTS.md and skills
Forma de instalacion
- Install Codex CLI with `npm install -g @openai/codex` or `brew install --cask codex`.
- Add `AGENTS.md` at the repo root and document the PDF workflow, test commands, and permission boundaries.
- Package PDF tooling as repo scripts such as `tools/pdf/run_ocr.sh` or `tools/pdf/parse_docling.py`.
- If you use Codex skills in the app, CLI, or IDE, bundle instructions, resources, and scripts as reusable skills.
Capacidades y limites
- Public documentation now confirms both Skills and AGENTS.md.
- The CLI is open-source, while the app and cloud remain managed product surfaces.
- The safest integration path for PDF skills is still repo-level scripts plus AGENTS.md.
Claude Code
Four official extension paths: skills, plugins, MCP, and CLAUDE.md
Forma de instalacion
- Install Claude Code with `curl -fsSL https://claude.ai/install.sh | bash`, or use Homebrew / WinGet.
- Native skills live in `~/.claude/skills/<skill>/SKILL.md` or project-level `.claude/skills/<skill>/SKILL.md`.
- Use `claude mcp add ...` to connect local stdio servers, remote HTTP servers, or OAuth-backed tools.
- Bundle skills, agents, hooks, and MCP servers into plugins when you need a sharable team distribution format.
Capacidades y limites
- Its public documentation is the most explicit across skills, plugins, and MCP.
- It works well for both native skills and MCP wrappers around OCR, parsing, translation, and RAG services.
- The core CLI has an official GitHub repo, while the model and service layer remain proprietary.
OpenClaw
Workspace skills, plugins, ClawHub, and a gateway make it the closest thing to a personal agent OS
Forma de instalacion
- Install OpenClaw from the official repo or install script; the main runtime entry is the Gateway.
- Workspace skills live in `~/.openclaw/workspace/skills/<skill>/SKILL.md`.
- Use plugins when a PDF workflow also needs channels, host integrations, or system capabilities.
- If ClawHub is enabled, agents can search and fetch skills, but production setups should still whitelist and review them.
Capacidades y limites
- The official README documents workspace roots, skills paths, and ClawHub behavior clearly.
- It is stronger than pure IDE agents when browser, desktop, or host-command automation matters.
- It is also the most open, which means permission control and supply-chain review matter more.
Trae
Trae IDE uses Agent Skills, @Agent, and MCP; the OSS Trae Agent uses YAML plus MCP
Forma de instalacion
- Install Trae IDE or SOLO from the official download page when you want the desktop product surface.
- The official Trae blog already documents Agent Skills creation, import, usage, and MCP support through `@Agent`.
- For the open-source agent path, use `git clone https://github.com/bytedance/trae-agent.git && uv sync --all-extras`.
- Add `mcp_servers` in the `trae-agent` config to attach external PDF skills and document tools.
Capacidades y limites
- Trae Agent has an official MIT-licensed GitHub repo.
- The Trae IDE and SOLO product surfaces publicly point to Agent Skills and MCP usage.
- Use the open agent when you need tighter control; add the IDE when visual workflows matter.
Que agents pueden usar realmente cada forma de empaquetar PDF skills
Soportar PDF no significa soportar todas las capacidades PDF. La compatibilidad real depende de la forma de instalacion: skills nativos, reglas del repo, CLI, MCP, APIs SaaS o GUI/RPA.
| Forma de instalacion | Codex | Claude Code | OpenClaw | Trae | Veredicto |
|---|---|---|---|---|---|
| Native skills / commands | Directo | Nativo | Nativo | Directo | Claude Code is the clearest today; OpenClaw has workspace skills; Trae has Agent Skills; Codex publicly confirms Skills but exposes fewer file-system details. |
| Repo rules files (AGENTS.md / CLAUDE.md / Rules) | Nativo | Directo | Directo | Directo | All four agent families can consume this layer; it is the most portable and least coupled way to inject team knowledge. |
| CLI / Python / Java libraries | Directo | Directo | Directo | Directo | This is the most reusable packaging form across agent families and the best first layer to deploy. |
| MCP server | Wrapper | Nativo | Wrapper | Directo | Claude Code is strongest natively; Trae also points clearly to MCP; Codex and OpenClaw usually benefit from MCP through wrappers, plugins, or gateways. |
| SaaS API / cloud service | Directo | Directo | Directo | Directo | All four agent families can use this layer reliably when API keys are governed and packaged as tools or scripts. |
| Desktop GUI / RPA | Limitado | Limitado | Directo | Wrapper | OpenClaw is friendlier to browser and desktop control; Codex and Claude Code should not treat GUI automation as the primary path. |
36 PDF skills / tools con estado open vs closed, GitHub e instalabilidad
El catalogo trata los skills como bloques instalables: librerias open source, CLIs, servidores MCP, APIs SaaS y productos de escritorio.
| Skill / Tool | Categoria | Abierto o cerrado | Forma de instalacion | GitHub / oficial | Mejor para | Nota |
|---|---|---|---|---|---|---|
| Tesseract OCR | OCR | Abierto | CLI / libreria | OCR generalOCR multilingue | Buena base open source localDepende del preprocesado | |
| OCRmyPDF | OCR | Abierto | CLI / libreria | PDF buscablePreprocesamiento para agents | Buena base open source localComun en pipelines de produccion | |
| PaddleOCR | OCR | Abierto | CLI / libreria | OCR multilingueFormularios y contratos empresariales | Fuerte en flujos con chinoComun en pipelines de produccion | |
| docTR | OCR | Abierto | CLI / libreria | OCR generalFormularios y contratos empresariales | Adecuado para investigacionDepende del preprocesado | |
| Docling | Analisis PDF | Abierto | CLI / libreria | Estructura lista para LLMLayouts complejos | Bueno como base de pipelineEspecialmente bueno con MCP | |
| docling-mcp | Analisis PDF | Abierto | MCP | Listo para MCPEstructura lista para LLM | Especialmente bueno con MCPBueno como base de pipeline | |
| GROBID | Analisis PDF | Abierto | CLI / libreria | Articulos academicosPDF tecnicos y de investigacion | Adecuado para investigacionComun en pipelines de produccion | |
| Nougat | Analisis PDF | Abierto | CLI / libreria | Articulos academicosDocumentos con muchas formulas | Adecuado para investigacionNo es un OCR generalista | |
| MinerU | Analisis PDF | Abierto | CLI / libreria | Layouts complejosDocumentos con muchas formulas | Fuerte en layouts complejosComun en pipelines de produccion | |
| PyMuPDF | Operaciones PDF | Abierto | CLI / libreria | Runtime de alto rendimientoOperaciones PDF ligeras | Comun en pipelines de produccionBueno como base de pipeline | |
| PyMuPDF4LLM | Operaciones PDF | Abierto | CLI / libreria | Preprocesamiento para agentsEstructura lista para LLM | Bueno como base de pipelineComun en pipelines de produccion | |
| pypdf | Operaciones PDF | Abierto | CLI / libreria | Operaciones PDF ligerasOperaciones de estructura PDF | Amigable con Python puroBueno como base de pipeline | |
| pdfplumber | Extraccion de tablas | Abierto | CLI / libreria | Depuracion de tablasTablas basadas en texto | Bueno para depurarBueno como base de pipeline | |
| Unstructured | ETL documental | Abierto | CLI / libreria | Chunking documentalPreprocesamiento para agents | Bueno como base de pipelineBueno para trabajo en equipo | |
| unstructured-api | ETL documental | Abierto | API SaaS | Capa API internaChunking documental | API-firstBueno para trabajo en equipo | |
| Tabula | Extraccion de tablas | Abierto | CLI / libreria | Tablas basadas en textoExtraccion masiva de tablas | Flojo con escaneos ruidososComun en pipelines de produccion | |
| tabula-java | Extraccion de tablas | Abierto | CLI / libreria | Extraccion masiva de tablasStacks enterprise en Java | Comun en pipelines de produccionBueno como base de pipeline | |
| qpdf | Operaciones PDF | Abierto | CLI / libreria | Operaciones de estructura PDFPostproceso por lotes | Comun en pipelines de produccionBueno como base de pipeline | |
| pdfcpu | Operaciones PDF | Abierto | CLI / libreria | Postproceso por lotesOperaciones de estructura PDF | Comun en pipelines de produccionBueno como base de pipeline | |
| Apache PDFBox | Operaciones PDF | Abierto | CLI / libreria | Stacks enterprise en JavaOperaciones de estructura PDF | Comun en pipelines de produccionBueno para trabajo en equipo | |
| OpenAI PDF Files | RAG / razonamiento | Cerrado | API SaaS | Razonamiento sobre PDFBusqueda entre documentos | API-firstMejor para razonar que para fidelidad de layout | |
| OpenAI File Search | RAG / razonamiento | Cerrado | API SaaS | Busqueda entre documentosBusqueda de conocimiento de equipo | API-firstBueno para trabajo en equipo | |
| Claude PDF Support | RAG / razonamiento | Cerrado | API SaaS | Razonamiento sobre PDFPDF tecnicos y de investigacion | API-firstMejor para razonar que para fidelidad de layout | |
| Claude Citations | Preguntas y respuestas | Cerrado | API SaaS | Respuestas con evidenciaBusqueda de conocimiento de equipo | API-firstBueno para trabajo en equipo | |
| Mistral OCR | Document AI empresarial | Cerrado | API SaaS | API OCR en la nubeLayouts complejos | API-firstAnade coste y dependencia de proveedor | |
| Mathpix PDF to Markdown | Analisis PDF | Cerrado | API SaaS | Documentos con muchas formulasArticulos academicos | Adecuado para investigacionAnade coste y dependencia de proveedor | |
| Google Document AI | Document AI empresarial | Cerrado | API SaaS | Formularios y contratos empresarialesCapa API interna | Orientado a empresaAPI-first | |
| Azure Document Intelligence | Document AI empresarial | Cerrado | API SaaS | Formularios y contratos empresarialesAPI OCR en la nube | Orientado a empresaAPI-first | |
| Amazon Textract | Document AI empresarial | Cerrado | API SaaS | Formularios y contratos empresarialesAPI OCR en la nube | Orientado a empresaAPI-first | |
| Adobe Acrobat AI Assistant | PDF de escritorio | Cerrado | GUI de escritorio / RPA | Revision de escritorioBusqueda de conocimiento de equipo | GUI-firstSuele requerir automatizacion wrapper | |
| Adobe Translate PDF | Traduccion | Cerrado | GUI de escritorio / RPA | Flujo de traduccion de escritorioEntrega multilingue | GUI-firstCapa de traduccion de alto valor | |
| ABBYY FineReader PDF | PDF de escritorio | Cerrado | GUI de escritorio / RPA | OCR y revision de escritorioPDF buscable | GUI-firstOrientado a empresa | |
| Nanonets | Automatizacion de facturas | Cerrado | API SaaS | Facturas y recibosCapa API interna | API-firstOrientado a empresa | |
| Rossum | Automatizacion de facturas | Cerrado | API SaaS | Facturas y recibosFormularios y contratos empresariales | Orientado a empresaAPI-first | |
| Parseur | Extraccion por plantilla | Cerrado | API SaaS | Extraccion guiada por plantillasCapa API interna | API-firstComun en pipelines de produccion | |
| Reflo | Traduccion | Cerrado | API SaaS | Entrega multilingueFlujo de traduccion de escritorio | Capa de traduccion de alto valorFuerte en layouts complejos | |
| DeepL Files + Glossary | Traduccion | Cerrado | API SaaS | Traduccion con termbaseEntrega multilingue | Capa de traduccion de alto valorBueno para trabajo en equipo | |
| Smallpdf Translate PDF | Traduccion | Cerrado | GUI de escritorio / RPA | Traduccion rapida de consumoFlujo de traduccion de escritorio | GUI-firstSuele requerir automatizacion wrapper | |
| iLovePDF Translate PDF | Traduccion | Cerrado | GUI de escritorio / RPA | Traduccion rapida de consumoFlujo de traduccion de escritorio | GUI-firstSuele requerir automatizacion wrapper | |
| PDFgear ChatPDF | Preguntas y respuestas | Cerrado | GUI de escritorio / RPA | Chat PDF en escritorioRazonamiento sobre PDF | GUI-firstSuele requerir automatizacion wrapper | |
| UPDF Chat with PDF | Preguntas y respuestas | Cerrado | GUI de escritorio / RPA | Chat PDF en escritorioRazonamiento sobre PDF | GUI-firstSuele requerir automatizacion wrapper | |
| AskYourPDF | Preguntas y respuestas | Cerrado | API SaaS | Razonamiento sobre PDFBusqueda de conocimiento de equipo | API-firstMejor para razonar que para fidelidad de layout | |
| Humata | Preguntas y respuestas | Cerrado | API SaaS | Busqueda de conocimiento de equipoBusqueda entre documentos | API-firstBueno para trabajo en equipo |
Una solucion PDF-agent de produccion es un stack, no una lista de compras
Una solucion real combina agent, PDF skills, capa de empaquetado, control de permisos y pruebas de regresion con documentos de ejemplo.
Blueprint A: Local-first open-source PDF agent baseline
Stack recomendado
- Agent: Claude Code or OpenClaw, with Trae Agent OSS as a strong alternative
- OCR: Tesseract + OCRmyPDF + PaddleOCR
- Parsing: Docling / MinerU / GROBID / Nougat
- Operations: PyMuPDF + pypdf + qpdf + pdfcpu
- Tables: pdfplumber + Tabula / tabula-java
Implementacion
- Install PDF capabilities first as CLI tools and Python scripts instead of starting with GUI products.
- Package those scripts as reusable skills for each agent family: `.claude/skills`, OpenClaw workspace skills, Trae Agent Skills or YAML, and Codex repo scripts plus AGENTS.md.
- Prepare 5 to 10 sample documents per document type and run regression checks for OCR, tables, formulas, and reading order.
Riesgos principales
- Self-hosted stacks cost more to maintain than SaaS layers.
- Accuracy can drop on complex layouts and low-resource languages.
- Permissions, logging, and regression governance remain your responsibility.
Blueprint B: Enterprise API-centered PDF agent platform
Stack recomendado
- Agent: Claude Code or Trae, with Codex covering the code and automation layer
- OCR / extraction: Google Document AI / Azure Document Intelligence / Amazon Textract
- Knowledge layer: OpenAI PDF Files + File Search or Claude PDF + citations
- Business flow tools: Nanonets / Rossum / Parseur
- Post-processing: qpdf / pypdf / PyMuPDF
Implementacion
- Wrap closed cloud services behind internal APIs or MCP wrappers instead of wiring every vendor directly into the agent.
- Route contracts, invoices, research PDFs, and branded collateral through different queues rather than sharing a single prompt chain.
- Put permissions and audit controls in the orchestration layer, not inside prompts.
Riesgos principales
- Vendor lock-in and cost growth remain real risks.
- API output structures may drift after model or service upgrades.
- Cross-border data flow and compliance boundaries must be reviewed in advance.
Blueprint C: Multilingual PDF delivery stack
Stack recomendado
- Agent: Codex or Claude Code for orchestration, batching, review, and download flows
- Delivery translation layer: Reflo
- Terminology layer: DeepL Glossary or an internal termbase
- Post-processing ecosystem: Adobe Acrobat / Adobe Translate PDF
- Quality control: PyMuPDF / qpdf / pdfcpu
Implementacion
- Define termbases, language pairs, and document classes before letting the agent run batch orchestration.
- Route high-value files through the Reflo / DeepL / Adobe combination and reserve lighter products for lower-risk content.
- Keep a human side-by-side review step before any customer-facing delivery.
Riesgos principales
- The closed translation layer costs more than a purely open-source stack.
- Complex PDFs still require sampled human QA.
- Errors in branded materials and contracts are expensive, so review gates remain mandatory.
Metodo y modelo de evidencia
Tipos de fuente: Paginas oficiales, GitHub oficiales, centros de ayuda, docs de desarrollador y docs de instalacion
Objetos de estudio: 4 plataformas de agents, 36 PDF skills / tools, 6 formas de instalacion y 3 planos de solucion
- La capa de evidencia incluye solo paginas oficiales de producto, repositorios oficiales de GitHub, centros de ayuda y documentacion oficial para desarrolladores.
- La instalabilidad se descompuso en seis formas: skills nativos, reglas de repo, CLI / librerias, MCP, APIs SaaS y GUI / RPA.
- La compatibilidad de agents se evaluo por superficies oficiales como skills, commands, plugins, MCP, workspace files, CLI o APIs, y no por lenguaje de marketing.
- En Codex ya estan confirmados Skills y AGENTS.md, pero la especificacion publica de native skills sigue siendo menos explicita que en Claude Code; por eso algunas recomendaciones se tratan como guia de implementacion.
Lista de fuentes oficiales
Para mantener el enfoque EEAT, este informe prioriza dominios oficiales, GitHub oficiales, centros de ayuda y documentacion oficial. Las inferencias se marcan de forma explicita.
Codex
Claude Code
OpenClaw
Trae
Open-source PDF stack
Closed / cloud PDF stack
- OpenAI PDF files guide
- OpenAI file search
- Claude PDF support
- Claude citations
- Mistral OCR
- Mathpix PDF to Markdown
- Google Document AI overview
- Azure Document Intelligence overview
- Amazon Textract overview
- Adobe Acrobat AI Assistant
- Adobe Translate PDF
- ABBYY FineReader PDF
- Reflo upload
- DeepL file translation
- DeepL glossary for file translation
Preguntas frecuentes
Claude Code es abierto o cerrado?
A 2026-04-15 ya existe un repo oficial en GitHub. En la practica debe verse como un modelo hibrido: CLI abierto y servicios/modelos propietarios.
Codex puede instalar PDF skills igual que Claude Code?
Si, pero la via publica mas segura sigue siendo AGENTS.md junto con scripts del repo y herramientas PDF por CLI o API.
OpenClaw es adecuado para herramientas PDF basadas en GUI?
Si, sobre todo cuando importan navegador, escritorio y automatizacion del host. Aun asi, CLI / API suele ser mas estable.
Trae es abierto o cerrado?
Trae Agent tiene repo oficial MIT abierto, mientras que Trae IDE / SOLO siguen pareciendo superficies comerciales mas cerradas.
Cual es el stack minimo viable para un PDF agent fiable?
Normalmente conviene empezar por OCRmyPDF, Docling o MinerU, PyMuPDF / pypdf y qpdf; luego se anaden OpenAI, Claude, Reflo o DeepL solo cuando hacen falta.
Primero la forma de instalacion, luego el PDF skill y al final la marca del modelo
En 2026, los sistemas PDF-agent mas solidos dependen mas de la instalabilidad via CLI/API/MCP, la auditabilidad y el diseno de permisos que del branding del modelo. Para entrega PDF multilingue, Reflo junto con DeepL o Adobe es fuerte; para una base local open source, OCRmyPDF, Docling, MinerU, PyMuPDF y qpdf siguen siendo el nucleo practico.