Edicao 2026
Verificado: 2026-04-15
36 PDF skills / tools
Agent-ready

Relatorio 2026 de PDF Skills: Guia completa de instalacao e selecao para Codex, Claude Code, OpenClaw e Trae

Em 2026, avaliar PDF skills exige olhar alem da capacidade isolada e focar em como essas capacidades sao instaladas, empacotadas, governadas e levadas para producao dentro de Codex, Claude Code, OpenClaw e Trae.

Achado principal

Se um agent consegue usar um PDF skill depende primeiro da forma de instalacao, e nao do nome do modelo.

Suporte nativo mais claro

Claude Code e o mais claro em skills, MCP e plugins; OpenClaw tambem e forte em workspace skills.

Base open source mais pratica

OCRmyPDF, Docling, MinerU, PyMuPDF e qpdf seguem como a base local open source mais util em 2026.

Camada fechada de alto valor

Reflo, DeepL, Adobe, OpenAI, Anthropic, Mistral, Google, Azure e AWS se destacam quando precisao e governanca pesam mais.

Ponto central

Em 15 de abril de 2026, a pergunta util ja nao e qual app de PDF parece mais forte, mas quais PDF skills podem ser instaladas, auditadas e operadas em stacks reais de agents.

Julgamento central
  • Em 2026-04-15, OpenClaw e Trae Agent ja publicam codigo aberto de forma clara; Claude Code tambem possui repo oficial no GitHub. Codex CLI e aberto, enquanto Codex app / cloud continuam como superficies gerenciadas.
  • Para fluxos PDF, bibliotecas CLI / Python / Java sao a forma mais portavel entre as quatro familias de agents. MCP e mais forte em Claude Code e Trae; em Codex e OpenClaw costuma funcionar melhor como camada wrapper.
  • Ferramentas PDF baseadas em GUI podem ser usadas, mas normalmente ficam atras de CLI / API em estabilidade e auditabilidade.
Instalacao em agents

Como OpenClaw, Claude Code, Codex e Trae instalam PDF skills

As conclusoes abaixo se baseiam em fontes oficiais verificaveis em 2026-04-15 e distinguem suporte nativo, integracao por wrapper e caminhos centrados em GUI.

Codex

Install the CLI or IDE first, then package PDF tooling with AGENTS.md and skills

Hibrido
Melhor para: PDF automation inside codebases, batch scripts, document understanding, and translation-delivery workflows

Forma de instalacao

  • Install Codex CLI with `npm install -g @openai/codex` or `brew install --cask codex`.
  • Add `AGENTS.md` at the repo root and document the PDF workflow, test commands, and permission boundaries.
  • Package PDF tooling as repo scripts such as `tools/pdf/run_ocr.sh` or `tools/pdf/parse_docling.py`.
  • If you use Codex skills in the app, CLI, or IDE, bundle instructions, resources, and scripts as reusable skills.

Capacidades e limites

  • Public documentation now confirms both Skills and AGENTS.md.
  • The CLI is open-source, while the app and cloud remain managed product surfaces.
  • The safest integration path for PDF skills is still repo-level scripts plus AGENTS.md.

Claude Code

Four official extension paths: skills, plugins, MCP, and CLAUDE.md

Hibrido
Melhor para: Teams that want the clearest official extension model and reusable PDF skills as durable team assets

Forma de instalacao

  • Install Claude Code with `curl -fsSL https://claude.ai/install.sh | bash`, or use Homebrew / WinGet.
  • Native skills live in `~/.claude/skills/<skill>/SKILL.md` or project-level `.claude/skills/<skill>/SKILL.md`.
  • Use `claude mcp add ...` to connect local stdio servers, remote HTTP servers, or OAuth-backed tools.
  • Bundle skills, agents, hooks, and MCP servers into plugins when you need a sharable team distribution format.

Capacidades e limites

  • Its public documentation is the most explicit across skills, plugins, and MCP.
  • It works well for both native skills and MCP wrappers around OCR, parsing, translation, and RAG services.
  • The core CLI has an official GitHub repo, while the model and service layer remain proprietary.

OpenClaw

Workspace skills, plugins, ClawHub, and a gateway make it the closest thing to a personal agent OS

Aberto
Melhor para: Personal AI assistants, multi-channel automation, and mixed browser / desktop / shell PDF workflows

Forma de instalacao

  • Install OpenClaw from the official repo or install script; the main runtime entry is the Gateway.
  • Workspace skills live in `~/.openclaw/workspace/skills/<skill>/SKILL.md`.
  • Use plugins when a PDF workflow also needs channels, host integrations, or system capabilities.
  • If ClawHub is enabled, agents can search and fetch skills, but production setups should still whitelist and review them.

Capacidades e limites

  • The official README documents workspace roots, skills paths, and ClawHub behavior clearly.
  • It is stronger than pure IDE agents when browser, desktop, or host-command automation matters.
  • It is also the most open, which means permission control and supply-chain review matter more.

Trae

Trae IDE uses Agent Skills, @Agent, and MCP; the OSS Trae Agent uses YAML plus MCP

Hibrido
Melhor para: IDE collaboration, multi-agent orchestration, and research-oriented or extensible coding-agent setups

Forma de instalacao

  • Install Trae IDE or SOLO from the official download page when you want the desktop product surface.
  • The official Trae blog already documents Agent Skills creation, import, usage, and MCP support through `@Agent`.
  • For the open-source agent path, use `git clone https://github.com/bytedance/trae-agent.git && uv sync --all-extras`.
  • Add `mcp_servers` in the `trae-agent` config to attach external PDF skills and document tools.

Capacidades e limites

  • Trae Agent has an official MIT-licensed GitHub repo.
  • The Trae IDE and SOLO product surfaces publicly point to Agent Skills and MCP usage.
  • Use the open agent when you need tighter control; add the IDE when visual workflows matter.
Compatibilidade

Quais agents conseguem realmente usar cada forma de empacotar PDF skills

Suportar PDF nao significa suportar toda capacidade PDF. A compatibilidade real depende da forma de instalacao: skills nativos, regras de repo, CLI, MCP, APIs SaaS ou GUI/RPA.

Forma de instalacaoCodexClaude CodeOpenClawTraeVeredito
Native skills / commandsDiretoNativoNativoDiretoClaude Code is the clearest today; OpenClaw has workspace skills; Trae has Agent Skills; Codex publicly confirms Skills but exposes fewer file-system details.
Repo rules files (AGENTS.md / CLAUDE.md / Rules)NativoDiretoDiretoDiretoAll four agent families can consume this layer; it is the most portable and least coupled way to inject team knowledge.
CLI / Python / Java librariesDiretoDiretoDiretoDiretoThis is the most reusable packaging form across agent families and the best first layer to deploy.
MCP serverWrapperNativoWrapperDiretoClaude Code is strongest natively; Trae also points clearly to MCP; Codex and OpenClaw usually benefit from MCP through wrappers, plugins, or gateways.
SaaS API / cloud serviceDiretoDiretoDiretoDiretoAll four agent families can use this layer reliably when API keys are governed and packaged as tools or scripts.
Desktop GUI / RPALimitadoLimitadoDiretoWrapperOpenClaw is friendlier to browser and desktop control; Codex and Claude Code should not treat GUI automation as the primary path.
Catalogo

36 PDF skills / tools com status aberto ou fechado, GitHub e instalabilidade

O catalogo trata skills como blocos instalaveis: bibliotecas open source, CLIs, servidores MCP, APIs SaaS e produtos de desktop.

Skill / ToolCategoriaAberto ou fechadoForma de instalacaoGitHub / oficialMelhor paraNota
Tesseract OCROCRAbertoCLI / biblioteca
OCR geralOCR multilingue
Boa base open source localDepende do pre-processamento
OCRmyPDFOCRAbertoCLI / biblioteca
PDF pesquisavelPreprocessamento para agents
Boa base open source localComum em pipelines de producao
PaddleOCROCRAbertoCLI / biblioteca
OCR multilingueFormularios e contratos empresariais
Forte em fluxos com chinesComum em pipelines de producao
docTROCRAbertoCLI / biblioteca
OCR geralFormularios e contratos empresariais
Adequado para pesquisaDepende do pre-processamento
DoclingParsing de PDFAbertoCLI / biblioteca
Estruturacao pronta para LLMLayouts complexos
Bom como base de pipelineEspecialmente bom com MCP
docling-mcpParsing de PDFAbertoMCP
Bom para MCPEstruturacao pronta para LLM
Especialmente bom com MCPBom como base de pipeline
GROBIDParsing de PDFAbertoCLI / biblioteca
Artigos academicosPDFs tecnicos e de pesquisa
Adequado para pesquisaComum em pipelines de producao
NougatParsing de PDFAbertoCLI / biblioteca
Artigos academicosDocumentos com muitas formulas
Adequado para pesquisaNao e um OCR generalista
MinerUParsing de PDFAbertoCLI / biblioteca
Layouts complexosDocumentos com muitas formulas
Forte em layouts complexosComum em pipelines de producao
PyMuPDFOperacoes com PDFAbertoCLI / biblioteca
Runtime de alto desempenhoOperacoes PDF leves
Comum em pipelines de producaoBom como base de pipeline
PyMuPDF4LLMOperacoes com PDFAbertoCLI / biblioteca
Preprocessamento para agentsEstruturacao pronta para LLM
Bom como base de pipelineComum em pipelines de producao
pypdfOperacoes com PDFAbertoCLI / biblioteca
Operacoes PDF levesOperacoes de estrutura PDF
Amigavel para Python puroBom como base de pipeline
pdfplumberExtracao de tabelasAbertoCLI / biblioteca
Depuracao de tabelasTabelas baseadas em texto
Bom para depurarBom como base de pipeline
UnstructuredETL documentalAbertoCLI / biblioteca
Chunking documentalPreprocessamento para agents
Bom como base de pipelineBom para fluxos de equipe
unstructured-apiETL documentalAbertoAPI SaaS
Camada interna de APIChunking documental
API-firstBom para fluxos de equipe
TabulaExtracao de tabelasAbertoCLI / biblioteca
Tabelas baseadas em textoExtracao de tabelas em lote
Fraco em scans ruidososComum em pipelines de producao
tabula-javaExtracao de tabelasAbertoCLI / biblioteca
Extracao de tabelas em loteStacks enterprise em Java
Comum em pipelines de producaoBom como base de pipeline
qpdfOperacoes com PDFAbertoCLI / biblioteca
Operacoes de estrutura PDFPos-processamento em lote
Comum em pipelines de producaoBom como base de pipeline
pdfcpuOperacoes com PDFAbertoCLI / biblioteca
Pos-processamento em loteOperacoes de estrutura PDF
Comum em pipelines de producaoBom como base de pipeline
Apache PDFBoxOperacoes com PDFAbertoCLI / biblioteca
Stacks enterprise em JavaOperacoes de estrutura PDF
Comum em pipelines de producaoBom para fluxos de equipe
OpenAI PDF FilesRAG / raciocinioFechadoAPI SaaS
Raciocinio sobre PDFBusca entre documentos
API-firstMelhor em entendimento do que em fidelidade de layout
OpenAI File SearchRAG / raciocinioFechadoAPI SaaS
Busca entre documentosBusca de conhecimento em equipe
API-firstBom para fluxos de equipe
Claude PDF SupportRAG / raciocinioFechadoAPI SaaS
Raciocinio sobre PDFPDFs tecnicos e de pesquisa
API-firstMelhor em entendimento do que em fidelidade de layout
Claude CitationsPerguntas e respostasFechadoAPI SaaS
Respostas com evidenciaBusca de conhecimento em equipe
API-firstBom para fluxos de equipe
Mistral OCRDocument AI enterpriseFechadoAPI SaaS
API OCR em nuvemLayouts complexos
API-firstAumenta custo e dependencia de fornecedor
Mathpix PDF to MarkdownParsing de PDFFechadoAPI SaaS
Documentos com muitas formulasArtigos academicos
Adequado para pesquisaAumenta custo e dependencia de fornecedor
Google Document AIDocument AI enterpriseFechadoAPI SaaS
Formularios e contratos empresariaisCamada interna de API
Orientado a empresaAPI-first
Azure Document IntelligenceDocument AI enterpriseFechadoAPI SaaS
Formularios e contratos empresariaisAPI OCR em nuvem
Orientado a empresaAPI-first
Amazon TextractDocument AI enterpriseFechadoAPI SaaS
Formularios e contratos empresariaisAPI OCR em nuvem
Orientado a empresaAPI-first
Adobe Acrobat AI AssistantPDF de desktopFechadoGUI de desktop / RPA
Revisao em desktopBusca de conhecimento em equipe
GUI-firstMuitas vezes precisa de wrapper
Adobe Translate PDFTraducaoFechadoGUI de desktop / RPA
Fluxo de traducao no desktopEntrega multilingue
GUI-firstCamada de traducao de alto valor
ABBYY FineReader PDFPDF de desktopFechadoGUI de desktop / RPA
OCR e revisao em desktopPDF pesquisavel
GUI-firstOrientado a empresa
NanonetsAutomacao de faturasFechadoAPI SaaS
Faturas e recibosCamada interna de API
API-firstOrientado a empresa
RossumAutomacao de faturasFechadoAPI SaaS
Faturas e recibosFormularios e contratos empresariais
Orientado a empresaAPI-first
ParseurExtracao por templateFechadoAPI SaaS
Extracao guiada por templateCamada interna de API
API-firstComum em pipelines de producao
RefloTraducaoFechadoAPI SaaS
Entrega multilingueFluxo de traducao no desktop
Camada de traducao de alto valorForte em layouts complexos
DeepL Files + GlossaryTraducaoFechadoAPI SaaS
Traducao guiada por termbaseEntrega multilingue
Camada de traducao de alto valorBom para fluxos de equipe
Smallpdf Translate PDFTraducaoFechadoGUI de desktop / RPA
Traducao rapida de consumoFluxo de traducao no desktop
GUI-firstMuitas vezes precisa de wrapper
iLovePDF Translate PDFTraducaoFechadoGUI de desktop / RPA
Traducao rapida de consumoFluxo de traducao no desktop
GUI-firstMuitas vezes precisa de wrapper
PDFgear ChatPDFPerguntas e respostasFechadoGUI de desktop / RPA
Chat com PDF no desktopRaciocinio sobre PDF
GUI-firstMuitas vezes precisa de wrapper
UPDF Chat with PDFPerguntas e respostasFechadoGUI de desktop / RPA
Chat com PDF no desktopRaciocinio sobre PDF
GUI-firstMuitas vezes precisa de wrapper
AskYourPDFPerguntas e respostasFechadoAPI SaaS
Raciocinio sobre PDFBusca de conhecimento em equipe
API-firstMelhor em entendimento do que em fidelidade de layout
HumataPerguntas e respostasFechadoAPI SaaS
Busca de conhecimento em equipeBusca entre documentos
API-firstBom para fluxos de equipe
Solucao

Uma solucao PDF-agent de producao e um stack, nao uma lista de compras

Uma solucao robusta combina agent, PDF skills, camada de empacotamento, controle de permissoes e testes de regressao com documentos de amostra.

Blueprint A: Local-first open-source PDF agent baseline

Adequado para: Privacy-sensitive teams that want control, lower vendor dependency, and are willing to operate their own stack

Stack recomendado

  • Agent: Claude Code or OpenClaw, with Trae Agent OSS as a strong alternative
  • OCR: Tesseract + OCRmyPDF + PaddleOCR
  • Parsing: Docling / MinerU / GROBID / Nougat
  • Operations: PyMuPDF + pypdf + qpdf + pdfcpu
  • Tables: pdfplumber + Tabula / tabula-java

Implementacao

  • Install PDF capabilities first as CLI tools and Python scripts instead of starting with GUI products.
  • Package those scripts as reusable skills for each agent family: `.claude/skills`, OpenClaw workspace skills, Trae Agent Skills or YAML, and Codex repo scripts plus AGENTS.md.
  • Prepare 5 to 10 sample documents per document type and run regression checks for OCR, tables, formulas, and reading order.

Principais riscos

  • Self-hosted stacks cost more to maintain than SaaS layers.
  • Accuracy can drop on complex layouts and low-resource languages.
  • Permissions, logging, and regression governance remain your responsibility.

Blueprint B: Enterprise API-centered PDF agent platform

Adequado para: Enterprises that already run cloud infrastructure and care about SLA, auditability, identity, and compliance

Stack recomendado

  • Agent: Claude Code or Trae, with Codex covering the code and automation layer
  • OCR / extraction: Google Document AI / Azure Document Intelligence / Amazon Textract
  • Knowledge layer: OpenAI PDF Files + File Search or Claude PDF + citations
  • Business flow tools: Nanonets / Rossum / Parseur
  • Post-processing: qpdf / pypdf / PyMuPDF

Implementacao

  • Wrap closed cloud services behind internal APIs or MCP wrappers instead of wiring every vendor directly into the agent.
  • Route contracts, invoices, research PDFs, and branded collateral through different queues rather than sharing a single prompt chain.
  • Put permissions and audit controls in the orchestration layer, not inside prompts.

Principais riscos

  • Vendor lock-in and cost growth remain real risks.
  • API output structures may drift after model or service upgrades.
  • Cross-border data flow and compliance boundaries must be reviewed in advance.

Blueprint C: Multilingual PDF delivery stack

Adequado para: Teams handling papers, manuals, contracts, overseas sales assets, and multilingual branded materials

Stack recomendado

  • Agent: Codex or Claude Code for orchestration, batching, review, and download flows
  • Delivery translation layer: Reflo
  • Terminology layer: DeepL Glossary or an internal termbase
  • Post-processing ecosystem: Adobe Acrobat / Adobe Translate PDF
  • Quality control: PyMuPDF / qpdf / pdfcpu

Implementacao

  • Define termbases, language pairs, and document classes before letting the agent run batch orchestration.
  • Route high-value files through the Reflo / DeepL / Adobe combination and reserve lighter products for lower-risk content.
  • Keep a human side-by-side review step before any customer-facing delivery.

Principais riscos

  • The closed translation layer costs more than a purely open-source stack.
  • Complex PDFs still require sampled human QA.
  • Errors in branded materials and contracts are expensive, so review gates remain mandatory.
Metodologia

Metodo e modelo de evidencia

Data de verificacao: 2026-04-15
Tipos de fonte: Paginas oficiais, GitHub oficiais, centrais de ajuda, docs de desenvolvedor e docs de instalacao
Objetos de pesquisa: 4 plataformas de agents, 36 PDF skills / tools, 6 formas de instalacao e 3 blueprints de solucao
  • A camada de evidencia inclui apenas paginas oficiais de produto, repositorios oficiais do GitHub, centrais de ajuda e documentacao oficial para desenvolvedores.
  • Instalabilidade foi dividida em seis formas: native skills, regras de repo, CLI / bibliotecas, MCP, APIs SaaS e GUI / RPA.
  • A compatibilidade de agents foi julgada pela existencia oficial de skills, commands, plugins, MCP, workspace files, CLI ou APIs, e nao por linguagem de marketing.
  • No Codex, Skills e AGENTS.md ja estao confirmados, mas a especificacao publica de native skills ainda e menos explicita do que em Claude Code; por isso parte das recomendacoes e tratada como guia de implementacao.
Fontes

Lista de fontes oficiais

Para manter alinhamento com EEAT, este relatorio prioriza dominios oficiais, GitHub oficiais, centrais de ajuda e documentacao oficial. Inferencias sao marcadas de forma explicita.

FAQ

Perguntas frequentes

Claude Code e aberto ou fechado?

Em 2026-04-15 ja existe um repo oficial no GitHub. Na pratica ele deve ser visto como hibrido: CLI aberto e camadas de modelo e servico proprietarias.

Codex consegue instalar PDF skills como o Claude Code?

Sim, mas o caminho publico mais seguro continua sendo AGENTS.md combinado com scripts do repo e ferramentas PDF por CLI ou API.

OpenClaw e adequado para ferramentas PDF baseadas em GUI?

Sim, especialmente quando navegador, desktop e automacao do host importam. Ainda assim, CLI / API costuma ser mais estavel.

Trae e aberto ou fechado?

Trae Agent tem repo oficial MIT aberto, enquanto Trae IDE / SOLO permanecem mais proximos de superficies comerciais fechadas.

Qual e o stack minimo viavel para um PDF agent confiavel?

Normalmente vale comecar por OCRmyPDF, Docling ou MinerU, PyMuPDF / pypdf e qpdf; depois OpenAI, Claude, Reflo ou DeepL entram apenas quando realmente fazem falta.

Recomendacao final

Primeiro a forma de instalacao, depois o PDF skill e por ultimo a marca do modelo

Em 2026, sistemas PDF-agent bem-sucedidos dependem mais de instalabilidade via CLI/API/MCP, auditabilidade e desenho de permissoes do que de branding do modelo. Para entrega PDF multilingue, Reflo com DeepL ou Adobe e forte; para uma base local open source, OCRmyPDF, Docling, MinerU, PyMuPDF e qpdf seguem como nucleo pratico.

Relatorio 2026 de PDF Skills: Guia completa de instalacao e selecao para Codex, Claude Code, OpenClaw e Trae