Stand 15. April 2026 ist nicht mehr die Frage, welche PDF-App am staerksten ist, sondern welche PDF skills sich in realen Agent-Stacks installierbar, auditierbar und produktiv betreiben lassen.
- Zum Stand 2026-04-15 veroeffentlichen OpenClaw und Trae Agent klaren Open-Source-Code; Claude Code hat ebenfalls ein offizielles GitHub-Repo. Codex CLI ist offen, waehrend Codex app / cloud weiterhin gemanagte Produktflaechen bleiben.
- Fuer PDF-Workflows sind CLI / Python / Java-Bibliotheken die portabelste Installationsform ueber alle vier Agent-Familien hinweg. MCP ist bei Claude Code und Trae am staerksten dokumentiert; bei Codex und OpenClaw ist es meist sinnvoller als Wrapper-Schicht.
- Desktop-GUI-Tools sind nicht unbrauchbar, haengen aber staerker von Browser- oder Desktop-Automation ab und sind meist schwaecher in Stabilitaet und Auditierbarkeit als CLI / API-Pfade.
Wie OpenClaw, Claude Code, Codex und Trae PDF skills einbinden
Die folgenden Aussagen basieren auf oeffentlich verifizierbaren offiziellen Quellen vom 15.04.2026 und unterscheiden sauber zwischen nativer Unterstuetzung, Wrapper-Pfaden und GUI-zentrierten Umwegen.
Codex
Install the CLI or IDE first, then package PDF tooling with AGENTS.md and skills
Installationsform
- Install Codex CLI with `npm install -g @openai/codex` or `brew install --cask codex`.
- Add `AGENTS.md` at the repo root and document the PDF workflow, test commands, and permission boundaries.
- Package PDF tooling as repo scripts such as `tools/pdf/run_ocr.sh` or `tools/pdf/parse_docling.py`.
- If you use Codex skills in the app, CLI, or IDE, bundle instructions, resources, and scripts as reusable skills.
Faehigkeiten und Grenzen
- Public documentation now confirms both Skills and AGENTS.md.
- The CLI is open-source, while the app and cloud remain managed product surfaces.
- The safest integration path for PDF skills is still repo-level scripts plus AGENTS.md.
Claude Code
Four official extension paths: skills, plugins, MCP, and CLAUDE.md
Installationsform
- Install Claude Code with `curl -fsSL https://claude.ai/install.sh | bash`, or use Homebrew / WinGet.
- Native skills live in `~/.claude/skills/<skill>/SKILL.md` or project-level `.claude/skills/<skill>/SKILL.md`.
- Use `claude mcp add ...` to connect local stdio servers, remote HTTP servers, or OAuth-backed tools.
- Bundle skills, agents, hooks, and MCP servers into plugins when you need a sharable team distribution format.
Faehigkeiten und Grenzen
- Its public documentation is the most explicit across skills, plugins, and MCP.
- It works well for both native skills and MCP wrappers around OCR, parsing, translation, and RAG services.
- The core CLI has an official GitHub repo, while the model and service layer remain proprietary.
OpenClaw
Workspace skills, plugins, ClawHub, and a gateway make it the closest thing to a personal agent OS
Installationsform
- Install OpenClaw from the official repo or install script; the main runtime entry is the Gateway.
- Workspace skills live in `~/.openclaw/workspace/skills/<skill>/SKILL.md`.
- Use plugins when a PDF workflow also needs channels, host integrations, or system capabilities.
- If ClawHub is enabled, agents can search and fetch skills, but production setups should still whitelist and review them.
Faehigkeiten und Grenzen
- The official README documents workspace roots, skills paths, and ClawHub behavior clearly.
- It is stronger than pure IDE agents when browser, desktop, or host-command automation matters.
- It is also the most open, which means permission control and supply-chain review matter more.
Trae
Trae IDE uses Agent Skills, @Agent, and MCP; the OSS Trae Agent uses YAML plus MCP
Installationsform
- Install Trae IDE or SOLO from the official download page when you want the desktop product surface.
- The official Trae blog already documents Agent Skills creation, import, usage, and MCP support through `@Agent`.
- For the open-source agent path, use `git clone https://github.com/bytedance/trae-agent.git && uv sync --all-extras`.
- Add `mcp_servers` in the `trae-agent` config to attach external PDF skills and document tools.
Faehigkeiten und Grenzen
- Trae Agent has an official MIT-licensed GitHub repo.
- The Trae IDE and SOLO product surfaces publicly point to Agent Skills and MCP usage.
- Use the open agent when you need tighter control; add the IDE when visual workflows matter.
Welche Agenten welche PDF-Skill-Verpackungen wirklich nutzen koennen
PDF-Unterstuetzung bedeutet nicht automatisch Unterstuetzung fuer jede PDF-Faehigkeit. Entscheidend ist die Verpackungsform: native Skills, Repo-Regeln, CLI, MCP, SaaS-APIs oder GUI/RPA.
| Installationsform | Codex | Claude Code | OpenClaw | Trae | Bewertung |
|---|---|---|---|---|---|
| Native skills / commands | Direkt | Nativ | Nativ | Direkt | Claude Code is the clearest today; OpenClaw has workspace skills; Trae has Agent Skills; Codex publicly confirms Skills but exposes fewer file-system details. |
| Repo rules files (AGENTS.md / CLAUDE.md / Rules) | Nativ | Direkt | Direkt | Direkt | All four agent families can consume this layer; it is the most portable and least coupled way to inject team knowledge. |
| CLI / Python / Java libraries | Direkt | Direkt | Direkt | Direkt | This is the most reusable packaging form across agent families and the best first layer to deploy. |
| MCP server | Wrapper | Nativ | Wrapper | Direkt | Claude Code is strongest natively; Trae also points clearly to MCP; Codex and OpenClaw usually benefit from MCP through wrappers, plugins, or gateways. |
| SaaS API / cloud service | Direkt | Direkt | Direkt | Direkt | All four agent families can use this layer reliably when API keys are governed and packaged as tools or scripts. |
| Desktop GUI / RPA | Begrenzt | Begrenzt | Direkt | Wrapper | OpenClaw is friendlier to browser and desktop control; Codex and Claude Code should not treat GUI automation as the primary path. |
36 PDF skills / tools mit Open-vs-Closed-Status, GitHub und Installierbarkeit
Die Tabelle behandelt Skills als installierbare Bausteine: Open-Source-Bibliotheken, CLIs, MCP-Server, SaaS-APIs und Desktop-Produkte.
| Skill / Tool | Kategorie | Open vs Closed | Installationsform | GitHub / offiziell | Einsatz | Hinweis |
|---|---|---|---|---|---|---|
| Tesseract OCR | OCR | Open Source | CLI / Bibliothek | Allgemeines OCRMehrsprachiges OCR | Stark als lokales Open-Source-FundamentHaengt stark von Vorverarbeitung ab | |
| OCRmyPDF | OCR | Open Source | CLI / Bibliothek | Durchsuchbares PDFAgent-Vorverarbeitung | Stark als lokales Open-Source-FundamentHauefig in Produktionspipelines | |
| PaddleOCR | OCR | Open Source | CLI / Bibliothek | Mehrsprachiges OCRFormulare und Vertraege | Gut fuer chinesische WorkflowsHauefig in Produktionspipelines | |
| docTR | OCR | Open Source | CLI / Bibliothek | Allgemeines OCRFormulare und Vertraege | ForschungsfreundlichHaengt stark von Vorverarbeitung ab | |
| Docling | PDF-Parsing | Open Source | CLI / Bibliothek | LLM-taugliche StrukturierungKomplexe Layouts | Gut als Pipeline-BausteinBesonders gut mit MCP | |
| docling-mcp | PDF-Parsing | Open Source | MCP | Gut fuer MCPLLM-taugliche Strukturierung | Besonders gut mit MCPGut als Pipeline-Baustein | |
| GROBID | PDF-Parsing | Open Source | CLI / Bibliothek | Wissenschaftliche PapersForschungs- und Technik-PDFs | ForschungsfreundlichHauefig in Produktionspipelines | |
| Nougat | PDF-Parsing | Open Source | CLI / Bibliothek | Wissenschaftliche PapersFormelreiche Dokumente | ForschungsfreundlichKein universelles OCR-Werkzeug | |
| MinerU | PDF-Parsing | Open Source | CLI / Bibliothek | Komplexe LayoutsFormelreiche Dokumente | Stark bei komplexen LayoutsHauefig in Produktionspipelines | |
| PyMuPDF | PDF-Operationen | Open Source | CLI / Bibliothek | Hochleistungs-RuntimeLeichte PDF-Operationen | Hauefig in ProduktionspipelinesGut als Pipeline-Baustein | |
| PyMuPDF4LLM | PDF-Operationen | Open Source | CLI / Bibliothek | Agent-VorverarbeitungLLM-taugliche Strukturierung | Gut als Pipeline-BausteinHauefig in Produktionspipelines | |
| pypdf | PDF-Operationen | Open Source | CLI / Bibliothek | Leichte PDF-OperationenPDF-Struktur-Operationen | Pure-Python-freundlichGut als Pipeline-Baustein | |
| pdfplumber | Tabellenextraktion | Open Source | CLI / Bibliothek | Tabellen-DebuggingTextbasierte Tabellen | Gut zum DebuggenGut als Pipeline-Baustein | |
| Unstructured | Dokumenten-ETL | Open Source | CLI / Bibliothek | Dokumenten-ChunkingAgent-Vorverarbeitung | Gut als Pipeline-BausteinGut fuer Team-Workflows | |
| unstructured-api | Dokumenten-ETL | Open Source | SaaS API | Interne API-SchichtDokumenten-Chunking | API-firstGut fuer Team-Workflows | |
| Tabula | Tabellenextraktion | Open Source | CLI / Bibliothek | Textbasierte TabellenBatch-Tabellenextraktion | Schwach bei verrauschten ScansHauefig in Produktionspipelines | |
| tabula-java | Tabellenextraktion | Open Source | CLI / Bibliothek | Batch-TabellenextraktionJava-Enterprise-Stacks | Hauefig in ProduktionspipelinesGut als Pipeline-Baustein | |
| qpdf | PDF-Operationen | Open Source | CLI / Bibliothek | PDF-Struktur-OperationenBatch-Nachbearbeitung | Hauefig in ProduktionspipelinesGut als Pipeline-Baustein | |
| pdfcpu | PDF-Operationen | Open Source | CLI / Bibliothek | Batch-NachbearbeitungPDF-Struktur-Operationen | Hauefig in ProduktionspipelinesGut als Pipeline-Baustein | |
| Apache PDFBox | PDF-Operationen | Open Source | CLI / Bibliothek | Java-Enterprise-StacksPDF-Struktur-Operationen | Hauefig in ProduktionspipelinesGut fuer Team-Workflows | |
| OpenAI PDF Files | RAG / Reasoning | Closed Source | SaaS API | PDF-ReasoningDokumentuebergreifende Suche | API-firstStaerker bei Reasoning als Layouttreue | |
| OpenAI File Search | RAG / Reasoning | Closed Source | SaaS API | Dokumentuebergreifende SucheTeam-Wissenssuche | API-firstGut fuer Team-Workflows | |
| Claude PDF Support | RAG / Reasoning | Closed Source | SaaS API | PDF-ReasoningForschungs- und Technik-PDFs | API-firstStaerker bei Reasoning als Layouttreue | |
| Claude Citations | Wissens-Q&A | Closed Source | SaaS API | Belegte AntwortenTeam-Wissenssuche | API-firstGut fuer Team-Workflows | |
| Mistral OCR | Enterprise-Dokumenten-AI | Closed Source | SaaS API | Cloud-OCR-APIKomplexe Layouts | API-firstErhoeht Kosten und Vendor-Abhaengigkeit | |
| Mathpix PDF to Markdown | PDF-Parsing | Closed Source | SaaS API | Formelreiche DokumenteWissenschaftliche Papers | ForschungsfreundlichErhoeht Kosten und Vendor-Abhaengigkeit | |
| Google Document AI | Enterprise-Dokumenten-AI | Closed Source | SaaS API | Formulare und VertraegeInterne API-Schicht | Enterprise-orientiertAPI-first | |
| Azure Document Intelligence | Enterprise-Dokumenten-AI | Closed Source | SaaS API | Formulare und VertraegeCloud-OCR-API | Enterprise-orientiertAPI-first | |
| Amazon Textract | Enterprise-Dokumenten-AI | Closed Source | SaaS API | Formulare und VertraegeCloud-OCR-API | Enterprise-orientiertAPI-first | |
| Adobe Acrobat AI Assistant | Desktop-PDF | Closed Source | Desktop GUI / RPA | Desktop-ReviewTeam-Wissenssuche | GUI-firstBraucht oft Wrapper-Automation | |
| Adobe Translate PDF | Uebersetzung | Closed Source | Desktop GUI / RPA | Desktop-UebersetzungsablaufMehrsprachige Auslieferung | GUI-firstHochwertige Uebersetzungsschicht | |
| ABBYY FineReader PDF | Desktop-PDF | Closed Source | Desktop GUI / RPA | Desktop-OCR und ReviewDurchsuchbares PDF | GUI-firstEnterprise-orientiert | |
| Nanonets | Rechnungsautomatisierung | Closed Source | SaaS API | Rechnungen und BelegeInterne API-Schicht | API-firstEnterprise-orientiert | |
| Rossum | Rechnungsautomatisierung | Closed Source | SaaS API | Rechnungen und BelegeFormulare und Vertraege | Enterprise-orientiertAPI-first | |
| Parseur | Template-Extraktion | Closed Source | SaaS API | Vorlagenbasierte ExtraktionInterne API-Schicht | API-firstHauefig in Produktionspipelines | |
| Reflo | Uebersetzung | Closed Source | SaaS API | Mehrsprachige AuslieferungDesktop-Uebersetzungsablauf | Hochwertige UebersetzungsschichtStark bei komplexen Layouts | |
| DeepL Files + Glossary | Uebersetzung | Closed Source | SaaS API | Terminologiegetriebene UebersetzungMehrsprachige Auslieferung | Hochwertige UebersetzungsschichtGut fuer Team-Workflows | |
| Smallpdf Translate PDF | Uebersetzung | Closed Source | Desktop GUI / RPA | Schnelle Consumer-UebersetzungDesktop-Uebersetzungsablauf | GUI-firstBraucht oft Wrapper-Automation | |
| iLovePDF Translate PDF | Uebersetzung | Closed Source | Desktop GUI / RPA | Schnelle Consumer-UebersetzungDesktop-Uebersetzungsablauf | GUI-firstBraucht oft Wrapper-Automation | |
| PDFgear ChatPDF | Wissens-Q&A | Closed Source | Desktop GUI / RPA | Desktop-PDF-ChatPDF-Reasoning | GUI-firstBraucht oft Wrapper-Automation | |
| UPDF Chat with PDF | Wissens-Q&A | Closed Source | Desktop GUI / RPA | Desktop-PDF-ChatPDF-Reasoning | GUI-firstBraucht oft Wrapper-Automation | |
| AskYourPDF | Wissens-Q&A | Closed Source | SaaS API | PDF-ReasoningTeam-Wissenssuche | API-firstStaerker bei Reasoning als Layouttreue | |
| Humata | Wissens-Q&A | Closed Source | SaaS API | Team-WissenssucheDokumentuebergreifende Suche | API-firstGut fuer Team-Workflows |
Eine produktive PDF-Agent-Loesung ist ein Stack, keine Einkaufsliste
Belastbare PDF-Agent-Systeme kombinieren Agent, PDF skills, Wrapper-Schicht, Rechtekontrolle und Regressionstests mit echten Beispieldokumenten.
Blueprint A: Local-first open-source PDF agent baseline
Empfohlener Stack
- Agent: Claude Code or OpenClaw, with Trae Agent OSS as a strong alternative
- OCR: Tesseract + OCRmyPDF + PaddleOCR
- Parsing: Docling / MinerU / GROBID / Nougat
- Operations: PyMuPDF + pypdf + qpdf + pdfcpu
- Tables: pdfplumber + Tabula / tabula-java
Umsetzung
- Install PDF capabilities first as CLI tools and Python scripts instead of starting with GUI products.
- Package those scripts as reusable skills for each agent family: `.claude/skills`, OpenClaw workspace skills, Trae Agent Skills or YAML, and Codex repo scripts plus AGENTS.md.
- Prepare 5 to 10 sample documents per document type and run regression checks for OCR, tables, formulas, and reading order.
Hauptrisiken
- Self-hosted stacks cost more to maintain than SaaS layers.
- Accuracy can drop on complex layouts and low-resource languages.
- Permissions, logging, and regression governance remain your responsibility.
Blueprint B: Enterprise API-centered PDF agent platform
Empfohlener Stack
- Agent: Claude Code or Trae, with Codex covering the code and automation layer
- OCR / extraction: Google Document AI / Azure Document Intelligence / Amazon Textract
- Knowledge layer: OpenAI PDF Files + File Search or Claude PDF + citations
- Business flow tools: Nanonets / Rossum / Parseur
- Post-processing: qpdf / pypdf / PyMuPDF
Umsetzung
- Wrap closed cloud services behind internal APIs or MCP wrappers instead of wiring every vendor directly into the agent.
- Route contracts, invoices, research PDFs, and branded collateral through different queues rather than sharing a single prompt chain.
- Put permissions and audit controls in the orchestration layer, not inside prompts.
Hauptrisiken
- Vendor lock-in and cost growth remain real risks.
- API output structures may drift after model or service upgrades.
- Cross-border data flow and compliance boundaries must be reviewed in advance.
Blueprint C: Multilingual PDF delivery stack
Empfohlener Stack
- Agent: Codex or Claude Code for orchestration, batching, review, and download flows
- Delivery translation layer: Reflo
- Terminology layer: DeepL Glossary or an internal termbase
- Post-processing ecosystem: Adobe Acrobat / Adobe Translate PDF
- Quality control: PyMuPDF / qpdf / pdfcpu
Umsetzung
- Define termbases, language pairs, and document classes before letting the agent run batch orchestration.
- Route high-value files through the Reflo / DeepL / Adobe combination and reserve lighter products for lower-risk content.
- Keep a human side-by-side review step before any customer-facing delivery.
Hauptrisiken
- The closed translation layer costs more than a purely open-source stack.
- Complex PDFs still require sampled human QA.
- Errors in branded materials and contracts are expensive, so review gates remain mandatory.
Methode und Evidenzmodell
Quellentypen: Offizielle Produktseiten, offizielle GitHub-Repos, Help Center, Entwicklerdokumentation, Installationsdokumentation
Untersuchungsobjekte: 4 Agent-Plattformen, 36 PDF skills / tools, 6 Installationsformen, 3 umsetzbare Blueprints
- Als primaere Evidenz wurden nur offizielle Produktseiten, offizielle GitHub-Repos, Help Center und Entwicklerdokumentation verwendet.
- Installierbarkeit wurde in sechs Formen zerlegt: native skills, Repo-Regeldateien, CLI / Bibliotheken, MCP, SaaS APIs und GUI / RPA.
- Agent-Kompatibilitaet wurde nicht nach Marketingaussagen bewertet, sondern danach, ob offizielle skills-, command-, plugin-, MCP-, workspace-, CLI- oder API-Oberflaechen dokumentiert sind.
- Bei Codex sind Skills und AGENTS.md bestaetigt, aber die oeffentliche native-skill-Spezifikation bleibt weniger explizit als bei Claude Code; entsprechende Hinweise werden daher als Umsetzungsempfehlungen markiert.
Offizielle Quellenliste
Zur Einhaltung von EEAT priorisiert dieser Bericht offizielle Domains, offizielle GitHub-Repos, Help Center und Entwicklerdokumentation. Abgeleitete Aussagen werden explizit markiert.
Codex
Claude Code
OpenClaw
Trae
Open-source PDF stack
Closed / cloud PDF stack
- OpenAI PDF files guide
- OpenAI file search
- Claude PDF support
- Claude citations
- Mistral OCR
- Mathpix PDF to Markdown
- Google Document AI overview
- Azure Document Intelligence overview
- Amazon Textract overview
- Adobe Acrobat AI Assistant
- Adobe Translate PDF
- ABBYY FineReader PDF
- Reflo upload
- DeepL file translation
- DeepL glossary for file translation
Hauefige Fragen
Ist Claude Code open source oder closed source?
Zum Stand 2026-04-15 existiert ein offizielles GitHub-Repo. Praktisch ist Claude Code als Hybrid zu betrachten: offener CLI-Kern, proprietaere Modell- und Servicelayer.
Kann Codex PDF skills direkt wie Claude Code installieren?
Ja, aber der sicherste oeffentlich dokumentierte Weg bleibt AGENTS.md plus Repo-Skripte und PDF CLI / API Werkzeuge.
Ist OpenClaw gut fuer GUI-basierte PDF-Tools geeignet?
Ja, besonders wenn Browser-, Desktop- oder Host-Automation wichtig ist. Dennoch bleibt CLI / API meist stabiler.
Ist Trae open source?
Trae Agent ist als MIT-Repo veroeffentlicht, waehrend Trae IDE / SOLO weiterhin eher geschlossene Produktoberflaechen sind.
Was ist der kleinste sinnvolle PDF-agent-Stack?
OCRmyPDF, Docling oder MinerU, PyMuPDF / pypdf und qpdf bilden meist die erste sinnvolle Basis; erst danach sollten OpenAI, Claude, Reflo oder DeepL ergaenzt werden.
Zuerst die Installationsform waehlen, dann den PDF skill, dann erst das Modell
In erfolgreichen PDF-Agent-Systemen zaehlen 2026 CLI/API/MCP-Installierbarkeit, Auditierbarkeit und Rechtemodell mehr als Modellmarketing. Fuer mehrsprachige PDF-Auslieferung sind Reflo plus DeepL oder Adobe stark; lokal bleiben OCRmyPDF, Docling, MinerU, PyMuPDF und qpdf die praktische Open-Source-Basis.