Ausgabe 2026
Geprueft: 2026-04-15
36 PDF skills / tools
Agent-ready

2026 PDF Skills Report: Installations- und Auswahlleitfaden fuer Codex, Claude Code, OpenClaw und Trae

Bei PDF skills geht es 2026 nicht mehr nur um die Faehigkeit selbst, sondern darum, wie sie in Codex, Claude Code, OpenClaw und Trae installiert, gesteuert, abgesichert und produktiv betrieben werden.

Wichtigster Befund

Ob ein Agent einen PDF skill nutzen kann, entscheidet zuerst die Installationsform und nicht der Modellname.

Staerkste native Schicht

Claude Code ist bei skills, MCP und plugins am klarsten dokumentiert; OpenClaw ist ebenfalls stark bei workspace skills.

Praktischste OSS-Basis

OCRmyPDF, Docling, MinerU, PyMuPDF und qpdf bilden 2026 die nuetzlichste lokale Open-Source-Grundlage.

Wertvolle Closed-Source-Schicht

Reflo, DeepL, Adobe, OpenAI, Anthropic, Mistral, Google, Azure und AWS passen gut zu Teams mit Fokus auf Genauigkeit oder Governance.

Kernaussage

Stand 15. April 2026 ist nicht mehr die Frage, welche PDF-App am staerksten ist, sondern welche PDF skills sich in realen Agent-Stacks installierbar, auditierbar und produktiv betreiben lassen.

Zentrale Einschaetzung
  • Zum Stand 2026-04-15 veroeffentlichen OpenClaw und Trae Agent klaren Open-Source-Code; Claude Code hat ebenfalls ein offizielles GitHub-Repo. Codex CLI ist offen, waehrend Codex app / cloud weiterhin gemanagte Produktflaechen bleiben.
  • Fuer PDF-Workflows sind CLI / Python / Java-Bibliotheken die portabelste Installationsform ueber alle vier Agent-Familien hinweg. MCP ist bei Claude Code und Trae am staerksten dokumentiert; bei Codex und OpenClaw ist es meist sinnvoller als Wrapper-Schicht.
  • Desktop-GUI-Tools sind nicht unbrauchbar, haengen aber staerker von Browser- oder Desktop-Automation ab und sind meist schwaecher in Stabilitaet und Auditierbarkeit als CLI / API-Pfade.
Agent-Installation

Wie OpenClaw, Claude Code, Codex und Trae PDF skills einbinden

Die folgenden Aussagen basieren auf oeffentlich verifizierbaren offiziellen Quellen vom 15.04.2026 und unterscheiden sauber zwischen nativer Unterstuetzung, Wrapper-Pfaden und GUI-zentrierten Umwegen.

Codex

Install the CLI or IDE first, then package PDF tooling with AGENTS.md and skills

Hybrid
Am besten geeignet fuer: PDF automation inside codebases, batch scripts, document understanding, and translation-delivery workflows

Installationsform

  • Install Codex CLI with `npm install -g @openai/codex` or `brew install --cask codex`.
  • Add `AGENTS.md` at the repo root and document the PDF workflow, test commands, and permission boundaries.
  • Package PDF tooling as repo scripts such as `tools/pdf/run_ocr.sh` or `tools/pdf/parse_docling.py`.
  • If you use Codex skills in the app, CLI, or IDE, bundle instructions, resources, and scripts as reusable skills.

Faehigkeiten und Grenzen

  • Public documentation now confirms both Skills and AGENTS.md.
  • The CLI is open-source, while the app and cloud remain managed product surfaces.
  • The safest integration path for PDF skills is still repo-level scripts plus AGENTS.md.

Claude Code

Four official extension paths: skills, plugins, MCP, and CLAUDE.md

Hybrid
Am besten geeignet fuer: Teams that want the clearest official extension model and reusable PDF skills as durable team assets

Installationsform

  • Install Claude Code with `curl -fsSL https://claude.ai/install.sh | bash`, or use Homebrew / WinGet.
  • Native skills live in `~/.claude/skills/<skill>/SKILL.md` or project-level `.claude/skills/<skill>/SKILL.md`.
  • Use `claude mcp add ...` to connect local stdio servers, remote HTTP servers, or OAuth-backed tools.
  • Bundle skills, agents, hooks, and MCP servers into plugins when you need a sharable team distribution format.

Faehigkeiten und Grenzen

  • Its public documentation is the most explicit across skills, plugins, and MCP.
  • It works well for both native skills and MCP wrappers around OCR, parsing, translation, and RAG services.
  • The core CLI has an official GitHub repo, while the model and service layer remain proprietary.

OpenClaw

Workspace skills, plugins, ClawHub, and a gateway make it the closest thing to a personal agent OS

Open Source
Am besten geeignet fuer: Personal AI assistants, multi-channel automation, and mixed browser / desktop / shell PDF workflows

Installationsform

  • Install OpenClaw from the official repo or install script; the main runtime entry is the Gateway.
  • Workspace skills live in `~/.openclaw/workspace/skills/<skill>/SKILL.md`.
  • Use plugins when a PDF workflow also needs channels, host integrations, or system capabilities.
  • If ClawHub is enabled, agents can search and fetch skills, but production setups should still whitelist and review them.

Faehigkeiten und Grenzen

  • The official README documents workspace roots, skills paths, and ClawHub behavior clearly.
  • It is stronger than pure IDE agents when browser, desktop, or host-command automation matters.
  • It is also the most open, which means permission control and supply-chain review matter more.

Trae

Trae IDE uses Agent Skills, @Agent, and MCP; the OSS Trae Agent uses YAML plus MCP

Hybrid
Am besten geeignet fuer: IDE collaboration, multi-agent orchestration, and research-oriented or extensible coding-agent setups

Installationsform

  • Install Trae IDE or SOLO from the official download page when you want the desktop product surface.
  • The official Trae blog already documents Agent Skills creation, import, usage, and MCP support through `@Agent`.
  • For the open-source agent path, use `git clone https://github.com/bytedance/trae-agent.git && uv sync --all-extras`.
  • Add `mcp_servers` in the `trae-agent` config to attach external PDF skills and document tools.

Faehigkeiten und Grenzen

  • Trae Agent has an official MIT-licensed GitHub repo.
  • The Trae IDE and SOLO product surfaces publicly point to Agent Skills and MCP usage.
  • Use the open agent when you need tighter control; add the IDE when visual workflows matter.
Kompatibilitaet

Welche Agenten welche PDF-Skill-Verpackungen wirklich nutzen koennen

PDF-Unterstuetzung bedeutet nicht automatisch Unterstuetzung fuer jede PDF-Faehigkeit. Entscheidend ist die Verpackungsform: native Skills, Repo-Regeln, CLI, MCP, SaaS-APIs oder GUI/RPA.

InstallationsformCodexClaude CodeOpenClawTraeBewertung
Native skills / commandsDirektNativNativDirektClaude Code is the clearest today; OpenClaw has workspace skills; Trae has Agent Skills; Codex publicly confirms Skills but exposes fewer file-system details.
Repo rules files (AGENTS.md / CLAUDE.md / Rules)NativDirektDirektDirektAll four agent families can consume this layer; it is the most portable and least coupled way to inject team knowledge.
CLI / Python / Java librariesDirektDirektDirektDirektThis is the most reusable packaging form across agent families and the best first layer to deploy.
MCP serverWrapperNativWrapperDirektClaude Code is strongest natively; Trae also points clearly to MCP; Codex and OpenClaw usually benefit from MCP through wrappers, plugins, or gateways.
SaaS API / cloud serviceDirektDirektDirektDirektAll four agent families can use this layer reliably when API keys are governed and packaged as tools or scripts.
Desktop GUI / RPABegrenztBegrenztDirektWrapperOpenClaw is friendlier to browser and desktop control; Codex and Claude Code should not treat GUI automation as the primary path.
Katalog

36 PDF skills / tools mit Open-vs-Closed-Status, GitHub und Installierbarkeit

Die Tabelle behandelt Skills als installierbare Bausteine: Open-Source-Bibliotheken, CLIs, MCP-Server, SaaS-APIs und Desktop-Produkte.

Skill / ToolKategorieOpen vs ClosedInstallationsformGitHub / offiziellEinsatzHinweis
Tesseract OCROCROpen SourceCLI / Bibliothek
Allgemeines OCRMehrsprachiges OCR
Stark als lokales Open-Source-FundamentHaengt stark von Vorverarbeitung ab
OCRmyPDFOCROpen SourceCLI / Bibliothek
Durchsuchbares PDFAgent-Vorverarbeitung
Stark als lokales Open-Source-FundamentHauefig in Produktionspipelines
PaddleOCROCROpen SourceCLI / Bibliothek
Mehrsprachiges OCRFormulare und Vertraege
Gut fuer chinesische WorkflowsHauefig in Produktionspipelines
docTROCROpen SourceCLI / Bibliothek
Allgemeines OCRFormulare und Vertraege
ForschungsfreundlichHaengt stark von Vorverarbeitung ab
DoclingPDF-ParsingOpen SourceCLI / Bibliothek
LLM-taugliche StrukturierungKomplexe Layouts
Gut als Pipeline-BausteinBesonders gut mit MCP
docling-mcpPDF-ParsingOpen SourceMCP
Gut fuer MCPLLM-taugliche Strukturierung
Besonders gut mit MCPGut als Pipeline-Baustein
GROBIDPDF-ParsingOpen SourceCLI / Bibliothek
Wissenschaftliche PapersForschungs- und Technik-PDFs
ForschungsfreundlichHauefig in Produktionspipelines
NougatPDF-ParsingOpen SourceCLI / Bibliothek
Wissenschaftliche PapersFormelreiche Dokumente
ForschungsfreundlichKein universelles OCR-Werkzeug
MinerUPDF-ParsingOpen SourceCLI / Bibliothek
Komplexe LayoutsFormelreiche Dokumente
Stark bei komplexen LayoutsHauefig in Produktionspipelines
PyMuPDFPDF-OperationenOpen SourceCLI / Bibliothek
Hochleistungs-RuntimeLeichte PDF-Operationen
Hauefig in ProduktionspipelinesGut als Pipeline-Baustein
PyMuPDF4LLMPDF-OperationenOpen SourceCLI / Bibliothek
Agent-VorverarbeitungLLM-taugliche Strukturierung
Gut als Pipeline-BausteinHauefig in Produktionspipelines
pypdfPDF-OperationenOpen SourceCLI / Bibliothek
Leichte PDF-OperationenPDF-Struktur-Operationen
Pure-Python-freundlichGut als Pipeline-Baustein
pdfplumberTabellenextraktionOpen SourceCLI / Bibliothek
Tabellen-DebuggingTextbasierte Tabellen
Gut zum DebuggenGut als Pipeline-Baustein
UnstructuredDokumenten-ETLOpen SourceCLI / Bibliothek
Dokumenten-ChunkingAgent-Vorverarbeitung
Gut als Pipeline-BausteinGut fuer Team-Workflows
unstructured-apiDokumenten-ETLOpen SourceSaaS API
Interne API-SchichtDokumenten-Chunking
API-firstGut fuer Team-Workflows
TabulaTabellenextraktionOpen SourceCLI / Bibliothek
Textbasierte TabellenBatch-Tabellenextraktion
Schwach bei verrauschten ScansHauefig in Produktionspipelines
tabula-javaTabellenextraktionOpen SourceCLI / Bibliothek
Batch-TabellenextraktionJava-Enterprise-Stacks
Hauefig in ProduktionspipelinesGut als Pipeline-Baustein
qpdfPDF-OperationenOpen SourceCLI / Bibliothek
PDF-Struktur-OperationenBatch-Nachbearbeitung
Hauefig in ProduktionspipelinesGut als Pipeline-Baustein
pdfcpuPDF-OperationenOpen SourceCLI / Bibliothek
Batch-NachbearbeitungPDF-Struktur-Operationen
Hauefig in ProduktionspipelinesGut als Pipeline-Baustein
Apache PDFBoxPDF-OperationenOpen SourceCLI / Bibliothek
Java-Enterprise-StacksPDF-Struktur-Operationen
Hauefig in ProduktionspipelinesGut fuer Team-Workflows
OpenAI PDF FilesRAG / ReasoningClosed SourceSaaS API
PDF-ReasoningDokumentuebergreifende Suche
API-firstStaerker bei Reasoning als Layouttreue
OpenAI File SearchRAG / ReasoningClosed SourceSaaS API
Dokumentuebergreifende SucheTeam-Wissenssuche
API-firstGut fuer Team-Workflows
Claude PDF SupportRAG / ReasoningClosed SourceSaaS API
PDF-ReasoningForschungs- und Technik-PDFs
API-firstStaerker bei Reasoning als Layouttreue
Claude CitationsWissens-Q&AClosed SourceSaaS API
Belegte AntwortenTeam-Wissenssuche
API-firstGut fuer Team-Workflows
Mistral OCREnterprise-Dokumenten-AIClosed SourceSaaS API
Cloud-OCR-APIKomplexe Layouts
API-firstErhoeht Kosten und Vendor-Abhaengigkeit
Mathpix PDF to MarkdownPDF-ParsingClosed SourceSaaS API
Formelreiche DokumenteWissenschaftliche Papers
ForschungsfreundlichErhoeht Kosten und Vendor-Abhaengigkeit
Google Document AIEnterprise-Dokumenten-AIClosed SourceSaaS API
Formulare und VertraegeInterne API-Schicht
Enterprise-orientiertAPI-first
Azure Document IntelligenceEnterprise-Dokumenten-AIClosed SourceSaaS API
Formulare und VertraegeCloud-OCR-API
Enterprise-orientiertAPI-first
Amazon TextractEnterprise-Dokumenten-AIClosed SourceSaaS API
Formulare und VertraegeCloud-OCR-API
Enterprise-orientiertAPI-first
Adobe Acrobat AI AssistantDesktop-PDFClosed SourceDesktop GUI / RPA
Desktop-ReviewTeam-Wissenssuche
GUI-firstBraucht oft Wrapper-Automation
Adobe Translate PDFUebersetzungClosed SourceDesktop GUI / RPA
Desktop-UebersetzungsablaufMehrsprachige Auslieferung
GUI-firstHochwertige Uebersetzungsschicht
ABBYY FineReader PDFDesktop-PDFClosed SourceDesktop GUI / RPA
Desktop-OCR und ReviewDurchsuchbares PDF
GUI-firstEnterprise-orientiert
NanonetsRechnungsautomatisierungClosed SourceSaaS API
Rechnungen und BelegeInterne API-Schicht
API-firstEnterprise-orientiert
RossumRechnungsautomatisierungClosed SourceSaaS API
Rechnungen und BelegeFormulare und Vertraege
Enterprise-orientiertAPI-first
ParseurTemplate-ExtraktionClosed SourceSaaS API
Vorlagenbasierte ExtraktionInterne API-Schicht
API-firstHauefig in Produktionspipelines
RefloUebersetzungClosed SourceSaaS API
Mehrsprachige AuslieferungDesktop-Uebersetzungsablauf
Hochwertige UebersetzungsschichtStark bei komplexen Layouts
DeepL Files + GlossaryUebersetzungClosed SourceSaaS API
Terminologiegetriebene UebersetzungMehrsprachige Auslieferung
Hochwertige UebersetzungsschichtGut fuer Team-Workflows
Smallpdf Translate PDFUebersetzungClosed SourceDesktop GUI / RPA
Schnelle Consumer-UebersetzungDesktop-Uebersetzungsablauf
GUI-firstBraucht oft Wrapper-Automation
iLovePDF Translate PDFUebersetzungClosed SourceDesktop GUI / RPA
Schnelle Consumer-UebersetzungDesktop-Uebersetzungsablauf
GUI-firstBraucht oft Wrapper-Automation
PDFgear ChatPDFWissens-Q&AClosed SourceDesktop GUI / RPA
Desktop-PDF-ChatPDF-Reasoning
GUI-firstBraucht oft Wrapper-Automation
UPDF Chat with PDFWissens-Q&AClosed SourceDesktop GUI / RPA
Desktop-PDF-ChatPDF-Reasoning
GUI-firstBraucht oft Wrapper-Automation
AskYourPDFWissens-Q&AClosed SourceSaaS API
PDF-ReasoningTeam-Wissenssuche
API-firstStaerker bei Reasoning als Layouttreue
HumataWissens-Q&AClosed SourceSaaS API
Team-WissenssucheDokumentuebergreifende Suche
API-firstGut fuer Team-Workflows
Loesung

Eine produktive PDF-Agent-Loesung ist ein Stack, keine Einkaufsliste

Belastbare PDF-Agent-Systeme kombinieren Agent, PDF skills, Wrapper-Schicht, Rechtekontrolle und Regressionstests mit echten Beispieldokumenten.

Blueprint A: Local-first open-source PDF agent baseline

Geeignet fuer: Privacy-sensitive teams that want control, lower vendor dependency, and are willing to operate their own stack

Empfohlener Stack

  • Agent: Claude Code or OpenClaw, with Trae Agent OSS as a strong alternative
  • OCR: Tesseract + OCRmyPDF + PaddleOCR
  • Parsing: Docling / MinerU / GROBID / Nougat
  • Operations: PyMuPDF + pypdf + qpdf + pdfcpu
  • Tables: pdfplumber + Tabula / tabula-java

Umsetzung

  • Install PDF capabilities first as CLI tools and Python scripts instead of starting with GUI products.
  • Package those scripts as reusable skills for each agent family: `.claude/skills`, OpenClaw workspace skills, Trae Agent Skills or YAML, and Codex repo scripts plus AGENTS.md.
  • Prepare 5 to 10 sample documents per document type and run regression checks for OCR, tables, formulas, and reading order.

Hauptrisiken

  • Self-hosted stacks cost more to maintain than SaaS layers.
  • Accuracy can drop on complex layouts and low-resource languages.
  • Permissions, logging, and regression governance remain your responsibility.

Blueprint B: Enterprise API-centered PDF agent platform

Geeignet fuer: Enterprises that already run cloud infrastructure and care about SLA, auditability, identity, and compliance

Empfohlener Stack

  • Agent: Claude Code or Trae, with Codex covering the code and automation layer
  • OCR / extraction: Google Document AI / Azure Document Intelligence / Amazon Textract
  • Knowledge layer: OpenAI PDF Files + File Search or Claude PDF + citations
  • Business flow tools: Nanonets / Rossum / Parseur
  • Post-processing: qpdf / pypdf / PyMuPDF

Umsetzung

  • Wrap closed cloud services behind internal APIs or MCP wrappers instead of wiring every vendor directly into the agent.
  • Route contracts, invoices, research PDFs, and branded collateral through different queues rather than sharing a single prompt chain.
  • Put permissions and audit controls in the orchestration layer, not inside prompts.

Hauptrisiken

  • Vendor lock-in and cost growth remain real risks.
  • API output structures may drift after model or service upgrades.
  • Cross-border data flow and compliance boundaries must be reviewed in advance.

Blueprint C: Multilingual PDF delivery stack

Geeignet fuer: Teams handling papers, manuals, contracts, overseas sales assets, and multilingual branded materials

Empfohlener Stack

  • Agent: Codex or Claude Code for orchestration, batching, review, and download flows
  • Delivery translation layer: Reflo
  • Terminology layer: DeepL Glossary or an internal termbase
  • Post-processing ecosystem: Adobe Acrobat / Adobe Translate PDF
  • Quality control: PyMuPDF / qpdf / pdfcpu

Umsetzung

  • Define termbases, language pairs, and document classes before letting the agent run batch orchestration.
  • Route high-value files through the Reflo / DeepL / Adobe combination and reserve lighter products for lower-risk content.
  • Keep a human side-by-side review step before any customer-facing delivery.

Hauptrisiken

  • The closed translation layer costs more than a purely open-source stack.
  • Complex PDFs still require sampled human QA.
  • Errors in branded materials and contracts are expensive, so review gates remain mandatory.
Methodik

Methode und Evidenzmodell

Pruefdatum: 2026-04-15
Quellentypen: Offizielle Produktseiten, offizielle GitHub-Repos, Help Center, Entwicklerdokumentation, Installationsdokumentation
Untersuchungsobjekte: 4 Agent-Plattformen, 36 PDF skills / tools, 6 Installationsformen, 3 umsetzbare Blueprints
  • Als primaere Evidenz wurden nur offizielle Produktseiten, offizielle GitHub-Repos, Help Center und Entwicklerdokumentation verwendet.
  • Installierbarkeit wurde in sechs Formen zerlegt: native skills, Repo-Regeldateien, CLI / Bibliotheken, MCP, SaaS APIs und GUI / RPA.
  • Agent-Kompatibilitaet wurde nicht nach Marketingaussagen bewertet, sondern danach, ob offizielle skills-, command-, plugin-, MCP-, workspace-, CLI- oder API-Oberflaechen dokumentiert sind.
  • Bei Codex sind Skills und AGENTS.md bestaetigt, aber die oeffentliche native-skill-Spezifikation bleibt weniger explizit als bei Claude Code; entsprechende Hinweise werden daher als Umsetzungsempfehlungen markiert.
Quellen

Offizielle Quellenliste

Zur Einhaltung von EEAT priorisiert dieser Bericht offizielle Domains, offizielle GitHub-Repos, Help Center und Entwicklerdokumentation. Abgeleitete Aussagen werden explizit markiert.

FAQ

Hauefige Fragen

Ist Claude Code open source oder closed source?

Zum Stand 2026-04-15 existiert ein offizielles GitHub-Repo. Praktisch ist Claude Code als Hybrid zu betrachten: offener CLI-Kern, proprietaere Modell- und Servicelayer.

Kann Codex PDF skills direkt wie Claude Code installieren?

Ja, aber der sicherste oeffentlich dokumentierte Weg bleibt AGENTS.md plus Repo-Skripte und PDF CLI / API Werkzeuge.

Ist OpenClaw gut fuer GUI-basierte PDF-Tools geeignet?

Ja, besonders wenn Browser-, Desktop- oder Host-Automation wichtig ist. Dennoch bleibt CLI / API meist stabiler.

Ist Trae open source?

Trae Agent ist als MIT-Repo veroeffentlicht, waehrend Trae IDE / SOLO weiterhin eher geschlossene Produktoberflaechen sind.

Was ist der kleinste sinnvolle PDF-agent-Stack?

OCRmyPDF, Docling oder MinerU, PyMuPDF / pypdf und qpdf bilden meist die erste sinnvolle Basis; erst danach sollten OpenAI, Claude, Reflo oder DeepL ergaenzt werden.

Abschlussempfehlung

Zuerst die Installationsform waehlen, dann den PDF skill, dann erst das Modell

In erfolgreichen PDF-Agent-Systemen zaehlen 2026 CLI/API/MCP-Installierbarkeit, Auditierbarkeit und Rechtemodell mehr als Modellmarketing. Fuer mehrsprachige PDF-Auslieferung sind Reflo plus DeepL oder Adobe stark; lokal bleiben OCRmyPDF, Docling, MinerU, PyMuPDF und qpdf die praktische Open-Source-Basis.

2026 PDF Skills Report: Installations- und Auswahlleitfaden fuer Codex, Claude Code, OpenClaw und Trae