Em 15 de abril de 2026, a pergunta util ja nao e qual app de PDF parece mais forte, mas quais PDF skills podem ser instaladas, auditadas e operadas em stacks reais de agents.
- Em 2026-04-15, OpenClaw e Trae Agent ja publicam codigo aberto de forma clara; Claude Code tambem possui repo oficial no GitHub. Codex CLI e aberto, enquanto Codex app / cloud continuam como superficies gerenciadas.
- Para fluxos PDF, bibliotecas CLI / Python / Java sao a forma mais portavel entre as quatro familias de agents. MCP e mais forte em Claude Code e Trae; em Codex e OpenClaw costuma funcionar melhor como camada wrapper.
- Ferramentas PDF baseadas em GUI podem ser usadas, mas normalmente ficam atras de CLI / API em estabilidade e auditabilidade.
Como OpenClaw, Claude Code, Codex e Trae instalam PDF skills
As conclusoes abaixo se baseiam em fontes oficiais verificaveis em 2026-04-15 e distinguem suporte nativo, integracao por wrapper e caminhos centrados em GUI.
Codex
Install the CLI or IDE first, then package PDF tooling with AGENTS.md and skills
Forma de instalacao
- Install Codex CLI with `npm install -g @openai/codex` or `brew install --cask codex`.
- Add `AGENTS.md` at the repo root and document the PDF workflow, test commands, and permission boundaries.
- Package PDF tooling as repo scripts such as `tools/pdf/run_ocr.sh` or `tools/pdf/parse_docling.py`.
- If you use Codex skills in the app, CLI, or IDE, bundle instructions, resources, and scripts as reusable skills.
Capacidades e limites
- Public documentation now confirms both Skills and AGENTS.md.
- The CLI is open-source, while the app and cloud remain managed product surfaces.
- The safest integration path for PDF skills is still repo-level scripts plus AGENTS.md.
Claude Code
Four official extension paths: skills, plugins, MCP, and CLAUDE.md
Forma de instalacao
- Install Claude Code with `curl -fsSL https://claude.ai/install.sh | bash`, or use Homebrew / WinGet.
- Native skills live in `~/.claude/skills/<skill>/SKILL.md` or project-level `.claude/skills/<skill>/SKILL.md`.
- Use `claude mcp add ...` to connect local stdio servers, remote HTTP servers, or OAuth-backed tools.
- Bundle skills, agents, hooks, and MCP servers into plugins when you need a sharable team distribution format.
Capacidades e limites
- Its public documentation is the most explicit across skills, plugins, and MCP.
- It works well for both native skills and MCP wrappers around OCR, parsing, translation, and RAG services.
- The core CLI has an official GitHub repo, while the model and service layer remain proprietary.
OpenClaw
Workspace skills, plugins, ClawHub, and a gateway make it the closest thing to a personal agent OS
Forma de instalacao
- Install OpenClaw from the official repo or install script; the main runtime entry is the Gateway.
- Workspace skills live in `~/.openclaw/workspace/skills/<skill>/SKILL.md`.
- Use plugins when a PDF workflow also needs channels, host integrations, or system capabilities.
- If ClawHub is enabled, agents can search and fetch skills, but production setups should still whitelist and review them.
Capacidades e limites
- The official README documents workspace roots, skills paths, and ClawHub behavior clearly.
- It is stronger than pure IDE agents when browser, desktop, or host-command automation matters.
- It is also the most open, which means permission control and supply-chain review matter more.
Trae
Trae IDE uses Agent Skills, @Agent, and MCP; the OSS Trae Agent uses YAML plus MCP
Forma de instalacao
- Install Trae IDE or SOLO from the official download page when you want the desktop product surface.
- The official Trae blog already documents Agent Skills creation, import, usage, and MCP support through `@Agent`.
- For the open-source agent path, use `git clone https://github.com/bytedance/trae-agent.git && uv sync --all-extras`.
- Add `mcp_servers` in the `trae-agent` config to attach external PDF skills and document tools.
Capacidades e limites
- Trae Agent has an official MIT-licensed GitHub repo.
- The Trae IDE and SOLO product surfaces publicly point to Agent Skills and MCP usage.
- Use the open agent when you need tighter control; add the IDE when visual workflows matter.
Quais agents conseguem realmente usar cada forma de empacotar PDF skills
Suportar PDF nao significa suportar toda capacidade PDF. A compatibilidade real depende da forma de instalacao: skills nativos, regras de repo, CLI, MCP, APIs SaaS ou GUI/RPA.
| Forma de instalacao | Codex | Claude Code | OpenClaw | Trae | Veredito |
|---|---|---|---|---|---|
| Native skills / commands | Direto | Nativo | Nativo | Direto | Claude Code is the clearest today; OpenClaw has workspace skills; Trae has Agent Skills; Codex publicly confirms Skills but exposes fewer file-system details. |
| Repo rules files (AGENTS.md / CLAUDE.md / Rules) | Nativo | Direto | Direto | Direto | All four agent families can consume this layer; it is the most portable and least coupled way to inject team knowledge. |
| CLI / Python / Java libraries | Direto | Direto | Direto | Direto | This is the most reusable packaging form across agent families and the best first layer to deploy. |
| MCP server | Wrapper | Nativo | Wrapper | Direto | Claude Code is strongest natively; Trae also points clearly to MCP; Codex and OpenClaw usually benefit from MCP through wrappers, plugins, or gateways. |
| SaaS API / cloud service | Direto | Direto | Direto | Direto | All four agent families can use this layer reliably when API keys are governed and packaged as tools or scripts. |
| Desktop GUI / RPA | Limitado | Limitado | Direto | Wrapper | OpenClaw is friendlier to browser and desktop control; Codex and Claude Code should not treat GUI automation as the primary path. |
36 PDF skills / tools com status aberto ou fechado, GitHub e instalabilidade
O catalogo trata skills como blocos instalaveis: bibliotecas open source, CLIs, servidores MCP, APIs SaaS e produtos de desktop.
| Skill / Tool | Categoria | Aberto ou fechado | Forma de instalacao | GitHub / oficial | Melhor para | Nota |
|---|---|---|---|---|---|---|
| Tesseract OCR | OCR | Aberto | CLI / biblioteca | OCR geralOCR multilingue | Boa base open source localDepende do pre-processamento | |
| OCRmyPDF | OCR | Aberto | CLI / biblioteca | PDF pesquisavelPreprocessamento para agents | Boa base open source localComum em pipelines de producao | |
| PaddleOCR | OCR | Aberto | CLI / biblioteca | OCR multilingueFormularios e contratos empresariais | Forte em fluxos com chinesComum em pipelines de producao | |
| docTR | OCR | Aberto | CLI / biblioteca | OCR geralFormularios e contratos empresariais | Adequado para pesquisaDepende do pre-processamento | |
| Docling | Parsing de PDF | Aberto | CLI / biblioteca | Estruturacao pronta para LLMLayouts complexos | Bom como base de pipelineEspecialmente bom com MCP | |
| docling-mcp | Parsing de PDF | Aberto | MCP | Bom para MCPEstruturacao pronta para LLM | Especialmente bom com MCPBom como base de pipeline | |
| GROBID | Parsing de PDF | Aberto | CLI / biblioteca | Artigos academicosPDFs tecnicos e de pesquisa | Adequado para pesquisaComum em pipelines de producao | |
| Nougat | Parsing de PDF | Aberto | CLI / biblioteca | Artigos academicosDocumentos com muitas formulas | Adequado para pesquisaNao e um OCR generalista | |
| MinerU | Parsing de PDF | Aberto | CLI / biblioteca | Layouts complexosDocumentos com muitas formulas | Forte em layouts complexosComum em pipelines de producao | |
| PyMuPDF | Operacoes com PDF | Aberto | CLI / biblioteca | Runtime de alto desempenhoOperacoes PDF leves | Comum em pipelines de producaoBom como base de pipeline | |
| PyMuPDF4LLM | Operacoes com PDF | Aberto | CLI / biblioteca | Preprocessamento para agentsEstruturacao pronta para LLM | Bom como base de pipelineComum em pipelines de producao | |
| pypdf | Operacoes com PDF | Aberto | CLI / biblioteca | Operacoes PDF levesOperacoes de estrutura PDF | Amigavel para Python puroBom como base de pipeline | |
| pdfplumber | Extracao de tabelas | Aberto | CLI / biblioteca | Depuracao de tabelasTabelas baseadas em texto | Bom para depurarBom como base de pipeline | |
| Unstructured | ETL documental | Aberto | CLI / biblioteca | Chunking documentalPreprocessamento para agents | Bom como base de pipelineBom para fluxos de equipe | |
| unstructured-api | ETL documental | Aberto | API SaaS | Camada interna de APIChunking documental | API-firstBom para fluxos de equipe | |
| Tabula | Extracao de tabelas | Aberto | CLI / biblioteca | Tabelas baseadas em textoExtracao de tabelas em lote | Fraco em scans ruidososComum em pipelines de producao | |
| tabula-java | Extracao de tabelas | Aberto | CLI / biblioteca | Extracao de tabelas em loteStacks enterprise em Java | Comum em pipelines de producaoBom como base de pipeline | |
| qpdf | Operacoes com PDF | Aberto | CLI / biblioteca | Operacoes de estrutura PDFPos-processamento em lote | Comum em pipelines de producaoBom como base de pipeline | |
| pdfcpu | Operacoes com PDF | Aberto | CLI / biblioteca | Pos-processamento em loteOperacoes de estrutura PDF | Comum em pipelines de producaoBom como base de pipeline | |
| Apache PDFBox | Operacoes com PDF | Aberto | CLI / biblioteca | Stacks enterprise em JavaOperacoes de estrutura PDF | Comum em pipelines de producaoBom para fluxos de equipe | |
| OpenAI PDF Files | RAG / raciocinio | Fechado | API SaaS | Raciocinio sobre PDFBusca entre documentos | API-firstMelhor em entendimento do que em fidelidade de layout | |
| OpenAI File Search | RAG / raciocinio | Fechado | API SaaS | Busca entre documentosBusca de conhecimento em equipe | API-firstBom para fluxos de equipe | |
| Claude PDF Support | RAG / raciocinio | Fechado | API SaaS | Raciocinio sobre PDFPDFs tecnicos e de pesquisa | API-firstMelhor em entendimento do que em fidelidade de layout | |
| Claude Citations | Perguntas e respostas | Fechado | API SaaS | Respostas com evidenciaBusca de conhecimento em equipe | API-firstBom para fluxos de equipe | |
| Mistral OCR | Document AI enterprise | Fechado | API SaaS | API OCR em nuvemLayouts complexos | API-firstAumenta custo e dependencia de fornecedor | |
| Mathpix PDF to Markdown | Parsing de PDF | Fechado | API SaaS | Documentos com muitas formulasArtigos academicos | Adequado para pesquisaAumenta custo e dependencia de fornecedor | |
| Google Document AI | Document AI enterprise | Fechado | API SaaS | Formularios e contratos empresariaisCamada interna de API | Orientado a empresaAPI-first | |
| Azure Document Intelligence | Document AI enterprise | Fechado | API SaaS | Formularios e contratos empresariaisAPI OCR em nuvem | Orientado a empresaAPI-first | |
| Amazon Textract | Document AI enterprise | Fechado | API SaaS | Formularios e contratos empresariaisAPI OCR em nuvem | Orientado a empresaAPI-first | |
| Adobe Acrobat AI Assistant | PDF de desktop | Fechado | GUI de desktop / RPA | Revisao em desktopBusca de conhecimento em equipe | GUI-firstMuitas vezes precisa de wrapper | |
| Adobe Translate PDF | Traducao | Fechado | GUI de desktop / RPA | Fluxo de traducao no desktopEntrega multilingue | GUI-firstCamada de traducao de alto valor | |
| ABBYY FineReader PDF | PDF de desktop | Fechado | GUI de desktop / RPA | OCR e revisao em desktopPDF pesquisavel | GUI-firstOrientado a empresa | |
| Nanonets | Automacao de faturas | Fechado | API SaaS | Faturas e recibosCamada interna de API | API-firstOrientado a empresa | |
| Rossum | Automacao de faturas | Fechado | API SaaS | Faturas e recibosFormularios e contratos empresariais | Orientado a empresaAPI-first | |
| Parseur | Extracao por template | Fechado | API SaaS | Extracao guiada por templateCamada interna de API | API-firstComum em pipelines de producao | |
| Reflo | Traducao | Fechado | API SaaS | Entrega multilingueFluxo de traducao no desktop | Camada de traducao de alto valorForte em layouts complexos | |
| DeepL Files + Glossary | Traducao | Fechado | API SaaS | Traducao guiada por termbaseEntrega multilingue | Camada de traducao de alto valorBom para fluxos de equipe | |
| Smallpdf Translate PDF | Traducao | Fechado | GUI de desktop / RPA | Traducao rapida de consumoFluxo de traducao no desktop | GUI-firstMuitas vezes precisa de wrapper | |
| iLovePDF Translate PDF | Traducao | Fechado | GUI de desktop / RPA | Traducao rapida de consumoFluxo de traducao no desktop | GUI-firstMuitas vezes precisa de wrapper | |
| PDFgear ChatPDF | Perguntas e respostas | Fechado | GUI de desktop / RPA | Chat com PDF no desktopRaciocinio sobre PDF | GUI-firstMuitas vezes precisa de wrapper | |
| UPDF Chat with PDF | Perguntas e respostas | Fechado | GUI de desktop / RPA | Chat com PDF no desktopRaciocinio sobre PDF | GUI-firstMuitas vezes precisa de wrapper | |
| AskYourPDF | Perguntas e respostas | Fechado | API SaaS | Raciocinio sobre PDFBusca de conhecimento em equipe | API-firstMelhor em entendimento do que em fidelidade de layout | |
| Humata | Perguntas e respostas | Fechado | API SaaS | Busca de conhecimento em equipeBusca entre documentos | API-firstBom para fluxos de equipe |
Uma solucao PDF-agent de producao e um stack, nao uma lista de compras
Uma solucao robusta combina agent, PDF skills, camada de empacotamento, controle de permissoes e testes de regressao com documentos de amostra.
Blueprint A: Local-first open-source PDF agent baseline
Stack recomendado
- Agent: Claude Code or OpenClaw, with Trae Agent OSS as a strong alternative
- OCR: Tesseract + OCRmyPDF + PaddleOCR
- Parsing: Docling / MinerU / GROBID / Nougat
- Operations: PyMuPDF + pypdf + qpdf + pdfcpu
- Tables: pdfplumber + Tabula / tabula-java
Implementacao
- Install PDF capabilities first as CLI tools and Python scripts instead of starting with GUI products.
- Package those scripts as reusable skills for each agent family: `.claude/skills`, OpenClaw workspace skills, Trae Agent Skills or YAML, and Codex repo scripts plus AGENTS.md.
- Prepare 5 to 10 sample documents per document type and run regression checks for OCR, tables, formulas, and reading order.
Principais riscos
- Self-hosted stacks cost more to maintain than SaaS layers.
- Accuracy can drop on complex layouts and low-resource languages.
- Permissions, logging, and regression governance remain your responsibility.
Blueprint B: Enterprise API-centered PDF agent platform
Stack recomendado
- Agent: Claude Code or Trae, with Codex covering the code and automation layer
- OCR / extraction: Google Document AI / Azure Document Intelligence / Amazon Textract
- Knowledge layer: OpenAI PDF Files + File Search or Claude PDF + citations
- Business flow tools: Nanonets / Rossum / Parseur
- Post-processing: qpdf / pypdf / PyMuPDF
Implementacao
- Wrap closed cloud services behind internal APIs or MCP wrappers instead of wiring every vendor directly into the agent.
- Route contracts, invoices, research PDFs, and branded collateral through different queues rather than sharing a single prompt chain.
- Put permissions and audit controls in the orchestration layer, not inside prompts.
Principais riscos
- Vendor lock-in and cost growth remain real risks.
- API output structures may drift after model or service upgrades.
- Cross-border data flow and compliance boundaries must be reviewed in advance.
Blueprint C: Multilingual PDF delivery stack
Stack recomendado
- Agent: Codex or Claude Code for orchestration, batching, review, and download flows
- Delivery translation layer: Reflo
- Terminology layer: DeepL Glossary or an internal termbase
- Post-processing ecosystem: Adobe Acrobat / Adobe Translate PDF
- Quality control: PyMuPDF / qpdf / pdfcpu
Implementacao
- Define termbases, language pairs, and document classes before letting the agent run batch orchestration.
- Route high-value files through the Reflo / DeepL / Adobe combination and reserve lighter products for lower-risk content.
- Keep a human side-by-side review step before any customer-facing delivery.
Principais riscos
- The closed translation layer costs more than a purely open-source stack.
- Complex PDFs still require sampled human QA.
- Errors in branded materials and contracts are expensive, so review gates remain mandatory.
Metodo e modelo de evidencia
Tipos de fonte: Paginas oficiais, GitHub oficiais, centrais de ajuda, docs de desenvolvedor e docs de instalacao
Objetos de pesquisa: 4 plataformas de agents, 36 PDF skills / tools, 6 formas de instalacao e 3 blueprints de solucao
- A camada de evidencia inclui apenas paginas oficiais de produto, repositorios oficiais do GitHub, centrais de ajuda e documentacao oficial para desenvolvedores.
- Instalabilidade foi dividida em seis formas: native skills, regras de repo, CLI / bibliotecas, MCP, APIs SaaS e GUI / RPA.
- A compatibilidade de agents foi julgada pela existencia oficial de skills, commands, plugins, MCP, workspace files, CLI ou APIs, e nao por linguagem de marketing.
- No Codex, Skills e AGENTS.md ja estao confirmados, mas a especificacao publica de native skills ainda e menos explicita do que em Claude Code; por isso parte das recomendacoes e tratada como guia de implementacao.
Lista de fontes oficiais
Para manter alinhamento com EEAT, este relatorio prioriza dominios oficiais, GitHub oficiais, centrais de ajuda e documentacao oficial. Inferencias sao marcadas de forma explicita.
Codex
Claude Code
OpenClaw
Trae
Open-source PDF stack
Closed / cloud PDF stack
- OpenAI PDF files guide
- OpenAI file search
- Claude PDF support
- Claude citations
- Mistral OCR
- Mathpix PDF to Markdown
- Google Document AI overview
- Azure Document Intelligence overview
- Amazon Textract overview
- Adobe Acrobat AI Assistant
- Adobe Translate PDF
- ABBYY FineReader PDF
- Reflo upload
- DeepL file translation
- DeepL glossary for file translation
Perguntas frequentes
Claude Code e aberto ou fechado?
Em 2026-04-15 ja existe um repo oficial no GitHub. Na pratica ele deve ser visto como hibrido: CLI aberto e camadas de modelo e servico proprietarias.
Codex consegue instalar PDF skills como o Claude Code?
Sim, mas o caminho publico mais seguro continua sendo AGENTS.md combinado com scripts do repo e ferramentas PDF por CLI ou API.
OpenClaw e adequado para ferramentas PDF baseadas em GUI?
Sim, especialmente quando navegador, desktop e automacao do host importam. Ainda assim, CLI / API costuma ser mais estavel.
Trae e aberto ou fechado?
Trae Agent tem repo oficial MIT aberto, enquanto Trae IDE / SOLO permanecem mais proximos de superficies comerciais fechadas.
Qual e o stack minimo viavel para um PDF agent confiavel?
Normalmente vale comecar por OCRmyPDF, Docling ou MinerU, PyMuPDF / pypdf e qpdf; depois OpenAI, Claude, Reflo ou DeepL entram apenas quando realmente fazem falta.
Primeiro a forma de instalacao, depois o PDF skill e por ultimo a marca do modelo
Em 2026, sistemas PDF-agent bem-sucedidos dependem mais de instalabilidade via CLI/API/MCP, auditabilidade e desenho de permissoes do que de branding do modelo. Para entrega PDF multilingue, Reflo com DeepL ou Adobe e forte; para uma base local open source, OCRmyPDF, Docling, MinerU, PyMuPDF e qpdf seguem como nucleo pratico.