По состоянию на 15 апреля 2026 года практический вопрос уже не в том, какое PDF-приложение выглядит сильнее, а в том, какие PDF skills реально устанавливаются, аудируются и работают внутри агентных стеков.
- По состоянию на 2026-04-15 OpenClaw и Trae Agent явно публикуют open-source код; у Claude Code тоже есть официальный GitHub repo. Codex CLI открыт, тогда как Codex app / cloud остаются управляемыми поверхностями продукта.
- Для PDF-процессов библиотеки CLI / Python / Java остаются самой переносимой формой установки между всеми четырьмя семействами agents. MCP лучше всего документирован в Claude Code и Trae; в Codex и OpenClaw он обычно работает надежнее как wrapper-слой.
- GUI-инструменты для PDF можно использовать, но по стабильности и аудируемости они обычно уступают путям CLI / API.
Как OpenClaw, Claude Code, Codex и Trae подключают PDF skills
Ниже собраны выводы на основе официально проверяемых источников по состоянию на 2026-04-15 с разделением на нативную поддержку, wrapper-пути и GUI-ориентированные сценарии.
Codex
Install the CLI or IDE first, then package PDF tooling with AGENTS.md and skills
Форма установки
- Install Codex CLI with `npm install -g @openai/codex` or `brew install --cask codex`.
- Add `AGENTS.md` at the repo root and document the PDF workflow, test commands, and permission boundaries.
- Package PDF tooling as repo scripts such as `tools/pdf/run_ocr.sh` or `tools/pdf/parse_docling.py`.
- If you use Codex skills in the app, CLI, or IDE, bundle instructions, resources, and scripts as reusable skills.
Возможности и ограничения
- Public documentation now confirms both Skills and AGENTS.md.
- The CLI is open-source, while the app and cloud remain managed product surfaces.
- The safest integration path for PDF skills is still repo-level scripts plus AGENTS.md.
Claude Code
Four official extension paths: skills, plugins, MCP, and CLAUDE.md
Форма установки
- Install Claude Code with `curl -fsSL https://claude.ai/install.sh | bash`, or use Homebrew / WinGet.
- Native skills live in `~/.claude/skills/<skill>/SKILL.md` or project-level `.claude/skills/<skill>/SKILL.md`.
- Use `claude mcp add ...` to connect local stdio servers, remote HTTP servers, or OAuth-backed tools.
- Bundle skills, agents, hooks, and MCP servers into plugins when you need a sharable team distribution format.
Возможности и ограничения
- Its public documentation is the most explicit across skills, plugins, and MCP.
- It works well for both native skills and MCP wrappers around OCR, parsing, translation, and RAG services.
- The core CLI has an official GitHub repo, while the model and service layer remain proprietary.
OpenClaw
Workspace skills, plugins, ClawHub, and a gateway make it the closest thing to a personal agent OS
Форма установки
- Install OpenClaw from the official repo or install script; the main runtime entry is the Gateway.
- Workspace skills live in `~/.openclaw/workspace/skills/<skill>/SKILL.md`.
- Use plugins when a PDF workflow also needs channels, host integrations, or system capabilities.
- If ClawHub is enabled, agents can search and fetch skills, but production setups should still whitelist and review them.
Возможности и ограничения
- The official README documents workspace roots, skills paths, and ClawHub behavior clearly.
- It is stronger than pure IDE agents when browser, desktop, or host-command automation matters.
- It is also the most open, which means permission control and supply-chain review matter more.
Trae
Trae IDE uses Agent Skills, @Agent, and MCP; the OSS Trae Agent uses YAML plus MCP
Форма установки
- Install Trae IDE or SOLO from the official download page when you want the desktop product surface.
- The official Trae blog already documents Agent Skills creation, import, usage, and MCP support through `@Agent`.
- For the open-source agent path, use `git clone https://github.com/bytedance/trae-agent.git && uv sync --all-extras`.
- Add `mcp_servers` in the `trae-agent` config to attach external PDF skills and document tools.
Возможности и ограничения
- Trae Agent has an official MIT-licensed GitHub repo.
- The Trae IDE and SOLO product surfaces publicly point to Agent Skills and MCP usage.
- Use the open agent when you need tighter control; add the IDE when visual workflows matter.
Какие agents действительно поддерживают какие формы упаковки PDF skills
Поддержка PDF не означает поддержку любого PDF skill. Реальная совместимость определяется формой установки: native skill, repo rules, CLI, MCP, SaaS API или GUI/RPA.
| Форма установки | Codex | Claude Code | OpenClaw | Trae | Оценка |
|---|---|---|---|---|---|
| Native skills / commands | Напрямую | Нативно | Нативно | Напрямую | Claude Code is the clearest today; OpenClaw has workspace skills; Trae has Agent Skills; Codex publicly confirms Skills but exposes fewer file-system details. |
| Repo rules files (AGENTS.md / CLAUDE.md / Rules) | Нативно | Напрямую | Напрямую | Напрямую | All four agent families can consume this layer; it is the most portable and least coupled way to inject team knowledge. |
| CLI / Python / Java libraries | Напрямую | Напрямую | Напрямую | Напрямую | This is the most reusable packaging form across agent families and the best first layer to deploy. |
| MCP server | Через wrapper | Нативно | Через wrapper | Напрямую | Claude Code is strongest natively; Trae also points clearly to MCP; Codex and OpenClaw usually benefit from MCP through wrappers, plugins, or gateways. |
| SaaS API / cloud service | Напрямую | Напрямую | Напрямую | Напрямую | All four agent families can use this layer reliably when API keys are governed and packaged as tools or scripts. |
| Desktop GUI / RPA | Ограниченно | Ограниченно | Напрямую | Через wrapper | OpenClaw is friendlier to browser and desktop control; Codex and Claude Code should not treat GUI automation as the primary path. |
36 PDF skills / tools с пометкой open vs closed, GitHub и установкой
Каталог рассматривает skills как устанавливаемые строительные блоки: open-source библиотеки, CLI, MCP servers, SaaS APIs и desktop-продукты.
| Skill / Tool | Категория | Open vs closed | Форма установки | GitHub / official | Лучше всего для | Примечание |
|---|---|---|---|---|---|---|
| Tesseract OCR | OCR | Открытый | CLI / библиотека | Универсальный OCRМультиязычный OCR | Сильная локальная open-source базаСильно зависит от предобработки | |
| OCRmyPDF | OCR | Открытый | CLI / библиотека | Поисковый PDFПредобработка для agents | Сильная локальная open-source базаЧасто встречается в продакшене | |
| PaddleOCR | OCR | Открытый | CLI / библиотека | Мультиязычный OCRКорпоративные формы и договоры | Хорошо подходит для китайских сценариевЧасто встречается в продакшене | |
| docTR | OCR | Открытый | CLI / библиотека | Универсальный OCRКорпоративные формы и договоры | Подходит для исследованийСильно зависит от предобработки | |
| Docling | PDF-парсинг | Открытый | CLI / библиотека | Структурирование для LLMСложная верстка | Хорош как базовый компонент pipelineОсобенно хорош с MCP | |
| docling-mcp | PDF-парсинг | Открытый | MCP | Подходит для MCPСтруктурирование для LLM | Особенно хорош с MCPХорош как базовый компонент pipeline | |
| GROBID | PDF-парсинг | Открытый | CLI / библиотека | Академические статьиНаучные и технические PDF | Подходит для исследованийЧасто встречается в продакшене | |
| Nougat | PDF-парсинг | Открытый | CLI / библиотека | Академические статьиДокументы с формулами | Подходит для исследованийНе универсальный OCR | |
| MinerU | PDF-парсинг | Открытый | CLI / библиотека | Сложная версткаДокументы с формулами | Силен на сложной версткеЧасто встречается в продакшене | |
| PyMuPDF | Операции с PDF | Открытый | CLI / библиотека | Высокопроизводительный runtimeЛегкие PDF-операции | Часто встречается в продакшенеХорош как базовый компонент pipeline | |
| PyMuPDF4LLM | Операции с PDF | Открытый | CLI / библиотека | Предобработка для agentsСтруктурирование для LLM | Хорош как базовый компонент pipelineЧасто встречается в продакшене | |
| pypdf | Операции с PDF | Открытый | CLI / библиотека | Легкие PDF-операцииОперации со структурой PDF | Дружелюбен к pure PythonХорош как базовый компонент pipeline | |
| pdfplumber | Извлечение таблиц | Открытый | CLI / библиотека | Отладка таблицТекстовые таблицы | Удобен для отладкиХорош как базовый компонент pipeline | |
| Unstructured | Документный ETL | Открытый | CLI / библиотека | Чанкинг документовПредобработка для agents | Хорош как базовый компонент pipelineПодходит для команд | |
| unstructured-api | Документный ETL | Открытый | SaaS API | Внутренний API-слойЧанкинг документов | API-firstПодходит для команд | |
| Tabula | Извлечение таблиц | Открытый | CLI / библиотека | Текстовые таблицыПакетное извлечение таблиц | Слаб на шумных сканахЧасто встречается в продакшене | |
| tabula-java | Извлечение таблиц | Открытый | CLI / библиотека | Пакетное извлечение таблицJava enterprise-стеки | Часто встречается в продакшенеХорош как базовый компонент pipeline | |
| qpdf | Операции с PDF | Открытый | CLI / библиотека | Операции со структурой PDFПакетная постобработка | Часто встречается в продакшенеХорош как базовый компонент pipeline | |
| pdfcpu | Операции с PDF | Открытый | CLI / библиотека | Пакетная постобработкаОперации со структурой PDF | Часто встречается в продакшенеХорош как базовый компонент pipeline | |
| Apache PDFBox | Операции с PDF | Открытый | CLI / библиотека | Java enterprise-стекиОперации со структурой PDF | Часто встречается в продакшенеПодходит для команд | |
| OpenAI PDF Files | RAG / reasoning | Закрытый | SaaS API | Рассуждение по PDFПоиск по нескольким документам | API-firstСильнее в понимании, чем в сохранении верстки | |
| OpenAI File Search | RAG / reasoning | Закрытый | SaaS API | Поиск по нескольким документамКомандный поиск знаний | API-firstПодходит для команд | |
| Claude PDF Support | RAG / reasoning | Закрытый | SaaS API | Рассуждение по PDFНаучные и технические PDF | API-firstСильнее в понимании, чем в сохранении верстки | |
| Claude Citations | Документный Q&A | Закрытый | SaaS API | Ответы с подтверждениемКомандный поиск знаний | API-firstПодходит для команд | |
| Mistral OCR | Корпоративный document AI | Закрытый | SaaS API | Облачный OCR APIСложная верстка | API-firstПовышает стоимость и зависимость от вендора | |
| Mathpix PDF to Markdown | PDF-парсинг | Закрытый | SaaS API | Документы с формуламиАкадемические статьи | Подходит для исследованийПовышает стоимость и зависимость от вендора | |
| Google Document AI | Корпоративный document AI | Закрытый | SaaS API | Корпоративные формы и договорыВнутренний API-слой | Ориентирован на enterpriseAPI-first | |
| Azure Document Intelligence | Корпоративный document AI | Закрытый | SaaS API | Корпоративные формы и договорыОблачный OCR API | Ориентирован на enterpriseAPI-first | |
| Amazon Textract | Корпоративный document AI | Закрытый | SaaS API | Корпоративные формы и договорыОблачный OCR API | Ориентирован на enterpriseAPI-first | |
| Adobe Acrobat AI Assistant | Десктопный PDF | Закрытый | Десктопный GUI / RPA | Десктопное ревьюКомандный поиск знаний | GUI-firstЧасто требует wrapper-автоматизации | |
| Adobe Translate PDF | Перевод | Закрытый | Десктопный GUI / RPA | Десктопный переводческий потокМультиязычная доставка | GUI-firstВысокоценный слой перевода | |
| ABBYY FineReader PDF | Десктопный PDF | Закрытый | Десктопный GUI / RPA | Десктопный OCR и проверкаПоисковый PDF | GUI-firstОриентирован на enterprise | |
| Nanonets | Автоматизация счетов | Закрытый | SaaS API | Счета и чекиВнутренний API-слой | API-firstОриентирован на enterprise | |
| Rossum | Автоматизация счетов | Закрытый | SaaS API | Счета и чекиКорпоративные формы и договоры | Ориентирован на enterpriseAPI-first | |
| Parseur | Шаблонное извлечение | Закрытый | SaaS API | Извлечение по шаблонуВнутренний API-слой | API-firstЧасто встречается в продакшене | |
| Reflo | Перевод | Закрытый | SaaS API | Мультиязычная доставкаДесктопный переводческий поток | Высокоценный слой переводаСилен на сложной верстке | |
| DeepL Files + Glossary | Перевод | Закрытый | SaaS API | Перевод с терминологиейМультиязычная доставка | Высокоценный слой переводаПодходит для команд | |
| Smallpdf Translate PDF | Перевод | Закрытый | Десктопный GUI / RPA | Быстрый потребительский переводДесктопный переводческий поток | GUI-firstЧасто требует wrapper-автоматизации | |
| iLovePDF Translate PDF | Перевод | Закрытый | Десктопный GUI / RPA | Быстрый потребительский переводДесктопный переводческий поток | GUI-firstЧасто требует wrapper-автоматизации | |
| PDFgear ChatPDF | Документный Q&A | Закрытый | Десктопный GUI / RPA | Десктопный chat с PDFРассуждение по PDF | GUI-firstЧасто требует wrapper-автоматизации | |
| UPDF Chat with PDF | Документный Q&A | Закрытый | Десктопный GUI / RPA | Десктопный chat с PDFРассуждение по PDF | GUI-firstЧасто требует wrapper-автоматизации | |
| AskYourPDF | Документный Q&A | Закрытый | SaaS API | Рассуждение по PDFКомандный поиск знаний | API-firstСильнее в понимании, чем в сохранении верстки | |
| Humata | Документный Q&A | Закрытый | SaaS API | Командный поиск знанийПоиск по нескольким документам | API-firstПодходит для команд |
Продакшен-решение для PDF-agent — это стек, а не список покупок
Надежная схема должна сочетать agent, PDF skills, слой упаковки, контроль прав и регрессионные тесты на реальных документах.
Blueprint A: Local-first open-source PDF agent baseline
Рекомендуемый стек
- Agent: Claude Code or OpenClaw, with Trae Agent OSS as a strong alternative
- OCR: Tesseract + OCRmyPDF + PaddleOCR
- Parsing: Docling / MinerU / GROBID / Nougat
- Operations: PyMuPDF + pypdf + qpdf + pdfcpu
- Tables: pdfplumber + Tabula / tabula-java
Внедрение
- Install PDF capabilities first as CLI tools and Python scripts instead of starting with GUI products.
- Package those scripts as reusable skills for each agent family: `.claude/skills`, OpenClaw workspace skills, Trae Agent Skills or YAML, and Codex repo scripts plus AGENTS.md.
- Prepare 5 to 10 sample documents per document type and run regression checks for OCR, tables, formulas, and reading order.
Основные риски
- Self-hosted stacks cost more to maintain than SaaS layers.
- Accuracy can drop on complex layouts and low-resource languages.
- Permissions, logging, and regression governance remain your responsibility.
Blueprint B: Enterprise API-centered PDF agent platform
Рекомендуемый стек
- Agent: Claude Code or Trae, with Codex covering the code and automation layer
- OCR / extraction: Google Document AI / Azure Document Intelligence / Amazon Textract
- Knowledge layer: OpenAI PDF Files + File Search or Claude PDF + citations
- Business flow tools: Nanonets / Rossum / Parseur
- Post-processing: qpdf / pypdf / PyMuPDF
Внедрение
- Wrap closed cloud services behind internal APIs or MCP wrappers instead of wiring every vendor directly into the agent.
- Route contracts, invoices, research PDFs, and branded collateral through different queues rather than sharing a single prompt chain.
- Put permissions and audit controls in the orchestration layer, not inside prompts.
Основные риски
- Vendor lock-in and cost growth remain real risks.
- API output structures may drift after model or service upgrades.
- Cross-border data flow and compliance boundaries must be reviewed in advance.
Blueprint C: Multilingual PDF delivery stack
Рекомендуемый стек
- Agent: Codex or Claude Code for orchestration, batching, review, and download flows
- Delivery translation layer: Reflo
- Terminology layer: DeepL Glossary or an internal termbase
- Post-processing ecosystem: Adobe Acrobat / Adobe Translate PDF
- Quality control: PyMuPDF / qpdf / pdfcpu
Внедрение
- Define termbases, language pairs, and document classes before letting the agent run batch orchestration.
- Route high-value files through the Reflo / DeepL / Adobe combination and reserve lighter products for lower-risk content.
- Keep a human side-by-side review step before any customer-facing delivery.
Основные риски
- The closed translation layer costs more than a purely open-source stack.
- Complex PDFs still require sampled human QA.
- Errors in branded materials and contracts are expensive, so review gates remain mandatory.
Метод и модель доказательств
Типы источников: Официальные страницы продуктов, официальные GitHub-репозитории, help center, dev docs и install docs
Объекты исследования: 4 агентные платформы, 36 PDF skills / tools, 6 форм установки и 3 практических blueprint
- В доказательную базу включены только официальные страницы продуктов, официальные GitHub repo, help center и официальная developer documentation.
- Installability была разбита на шесть форм: native skills, repo rules, CLI / libraries, MCP, SaaS APIs и GUI / RPA.
- Совместимость agents оценивалась не по маркетинговым обещаниям, а по наличию официально описанных surfaces: skills, commands, plugins, MCP, workspace files, CLI или APIs.
- В Codex подтверждены Skills и AGENTS.md, но публичная спецификация native skills пока менее подробна, чем у Claude Code, поэтому часть выводов помечена как implementation guidance.
Список официальных источников
Чтобы соответствовать EEAT, отчет опирается прежде всего на официальные домены, официальные GitHub, help center и официальную документацию. Любая интерпретация помечается отдельно.
Codex
Claude Code
OpenClaw
Trae
Open-source PDF stack
Closed / cloud PDF stack
- OpenAI PDF files guide
- OpenAI file search
- Claude PDF support
- Claude citations
- Mistral OCR
- Mathpix PDF to Markdown
- Google Document AI overview
- Azure Document Intelligence overview
- Amazon Textract overview
- Adobe Acrobat AI Assistant
- Adobe Translate PDF
- ABBYY FineReader PDF
- Reflo upload
- DeepL file translation
- DeepL glossary for file translation
Частые вопросы
Claude Code открыт или закрыт?
На 2026-04-15 у Claude Code уже есть официальный GitHub repo. Практически это гибрид: открытый CLI и проприетарные модельные и сервисные слои.
Может ли Codex устанавливать PDF skills так же, как Claude Code?
Да, но самый надежный публичный путь по-прежнему выглядит как AGENTS.md плюс repo scripts и PDF CLI / API tools.
Подходит ли OpenClaw для GUI-ориентированных PDF tools?
Да, особенно когда важны браузер, десктоп и автоматизация хоста. Но CLI / API обычно стабильнее.
Trae открыт или закрыт?
У Trae Agent есть официальный MIT repo, тогда как Trae IDE / SOLO ближе к коммерческим закрытым поверхностям.
Какой минимально жизнеспособный стек нужен для надежного PDF agent?
Обычно стоит начать с OCRmyPDF, Docling или MinerU, PyMuPDF / pypdf и qpdf, а уже потом добавлять OpenAI, Claude, Reflo или DeepL по реальной необходимости.
Сначала выбирается форма установки, затем PDF skill, и только потом модель
В 2026 году успех PDF-agent систем больше зависит от установимости через CLI/API/MCP, аудируемости и дизайна прав доступа, чем от бренда модели. Для мультиязычной доставки PDF сильна связка Reflo + DeepL / Adobe; для локальной open-source базы практичным ядром остаются OCRmyPDF, Docling, MinerU, PyMuPDF и qpdf.