Версия 2026
Проверено: 2026-04-15
36 PDF skills / tools
Agent-ready

Отчет 2026 о PDF Skills: полное руководство по установке и выбору для Codex, Claude Code, OpenClaw и Trae

В 2026 году оценка PDF skills означает не только сравнение самих возможностей, но и понимание того, как они устанавливаются, управляются и выводятся в продакшен внутри Codex, Claude Code, OpenClaw и Trae.

Главный вывод

Способность agent использовать PDF skill определяется прежде всего формой установки, а не названием модели.

Самая сильная native-слойка

Claude Code наиболее прозрачен по skills, MCP и plugins; OpenClaw также силен в workspace skills.

Самая практичная open-source база

OCRmyPDF, Docling, MinerU, PyMuPDF и qpdf остаются самой полезной локальной open-source основой в 2026 году.

Высокоценная closed-слойка

Reflo, DeepL, Adobe, OpenAI, Anthropic, Mistral, Google, Azure и AWS подходят там, где важнее точность и governance.

Главный вывод

По состоянию на 15 апреля 2026 года практический вопрос уже не в том, какое PDF-приложение выглядит сильнее, а в том, какие PDF skills реально устанавливаются, аудируются и работают внутри агентных стеков.

Ключевая оценка
  • По состоянию на 2026-04-15 OpenClaw и Trae Agent явно публикуют open-source код; у Claude Code тоже есть официальный GitHub repo. Codex CLI открыт, тогда как Codex app / cloud остаются управляемыми поверхностями продукта.
  • Для PDF-процессов библиотеки CLI / Python / Java остаются самой переносимой формой установки между всеми четырьмя семействами agents. MCP лучше всего документирован в Claude Code и Trae; в Codex и OpenClaw он обычно работает надежнее как wrapper-слой.
  • GUI-инструменты для PDF можно использовать, но по стабильности и аудируемости они обычно уступают путям CLI / API.
Установка в agents

Как OpenClaw, Claude Code, Codex и Trae подключают PDF skills

Ниже собраны выводы на основе официально проверяемых источников по состоянию на 2026-04-15 с разделением на нативную поддержку, wrapper-пути и GUI-ориентированные сценарии.

Codex

Install the CLI or IDE first, then package PDF tooling with AGENTS.md and skills

Гибридный
Лучше всего для: PDF automation inside codebases, batch scripts, document understanding, and translation-delivery workflows

Форма установки

  • Install Codex CLI with `npm install -g @openai/codex` or `brew install --cask codex`.
  • Add `AGENTS.md` at the repo root and document the PDF workflow, test commands, and permission boundaries.
  • Package PDF tooling as repo scripts such as `tools/pdf/run_ocr.sh` or `tools/pdf/parse_docling.py`.
  • If you use Codex skills in the app, CLI, or IDE, bundle instructions, resources, and scripts as reusable skills.

Возможности и ограничения

  • Public documentation now confirms both Skills and AGENTS.md.
  • The CLI is open-source, while the app and cloud remain managed product surfaces.
  • The safest integration path for PDF skills is still repo-level scripts plus AGENTS.md.

Claude Code

Four official extension paths: skills, plugins, MCP, and CLAUDE.md

Гибридный
Лучше всего для: Teams that want the clearest official extension model and reusable PDF skills as durable team assets

Форма установки

  • Install Claude Code with `curl -fsSL https://claude.ai/install.sh | bash`, or use Homebrew / WinGet.
  • Native skills live in `~/.claude/skills/<skill>/SKILL.md` or project-level `.claude/skills/<skill>/SKILL.md`.
  • Use `claude mcp add ...` to connect local stdio servers, remote HTTP servers, or OAuth-backed tools.
  • Bundle skills, agents, hooks, and MCP servers into plugins when you need a sharable team distribution format.

Возможности и ограничения

  • Its public documentation is the most explicit across skills, plugins, and MCP.
  • It works well for both native skills and MCP wrappers around OCR, parsing, translation, and RAG services.
  • The core CLI has an official GitHub repo, while the model and service layer remain proprietary.

OpenClaw

Workspace skills, plugins, ClawHub, and a gateway make it the closest thing to a personal agent OS

Открытый
Лучше всего для: Personal AI assistants, multi-channel automation, and mixed browser / desktop / shell PDF workflows

Форма установки

  • Install OpenClaw from the official repo or install script; the main runtime entry is the Gateway.
  • Workspace skills live in `~/.openclaw/workspace/skills/<skill>/SKILL.md`.
  • Use plugins when a PDF workflow also needs channels, host integrations, or system capabilities.
  • If ClawHub is enabled, agents can search and fetch skills, but production setups should still whitelist and review them.

Возможности и ограничения

  • The official README documents workspace roots, skills paths, and ClawHub behavior clearly.
  • It is stronger than pure IDE agents when browser, desktop, or host-command automation matters.
  • It is also the most open, which means permission control and supply-chain review matter more.

Trae

Trae IDE uses Agent Skills, @Agent, and MCP; the OSS Trae Agent uses YAML plus MCP

Гибридный
Лучше всего для: IDE collaboration, multi-agent orchestration, and research-oriented or extensible coding-agent setups

Форма установки

  • Install Trae IDE or SOLO from the official download page when you want the desktop product surface.
  • The official Trae blog already documents Agent Skills creation, import, usage, and MCP support through `@Agent`.
  • For the open-source agent path, use `git clone https://github.com/bytedance/trae-agent.git && uv sync --all-extras`.
  • Add `mcp_servers` in the `trae-agent` config to attach external PDF skills and document tools.

Возможности и ограничения

  • Trae Agent has an official MIT-licensed GitHub repo.
  • The Trae IDE and SOLO product surfaces publicly point to Agent Skills and MCP usage.
  • Use the open agent when you need tighter control; add the IDE when visual workflows matter.
Совместимость

Какие agents действительно поддерживают какие формы упаковки PDF skills

Поддержка PDF не означает поддержку любого PDF skill. Реальная совместимость определяется формой установки: native skill, repo rules, CLI, MCP, SaaS API или GUI/RPA.

Форма установкиCodexClaude CodeOpenClawTraeОценка
Native skills / commandsНапрямуюНативноНативноНапрямуюClaude Code is the clearest today; OpenClaw has workspace skills; Trae has Agent Skills; Codex publicly confirms Skills but exposes fewer file-system details.
Repo rules files (AGENTS.md / CLAUDE.md / Rules)НативноНапрямуюНапрямуюНапрямуюAll four agent families can consume this layer; it is the most portable and least coupled way to inject team knowledge.
CLI / Python / Java librariesНапрямуюНапрямуюНапрямуюНапрямуюThis is the most reusable packaging form across agent families and the best first layer to deploy.
MCP serverЧерез wrapperНативноЧерез wrapperНапрямуюClaude Code is strongest natively; Trae also points clearly to MCP; Codex and OpenClaw usually benefit from MCP through wrappers, plugins, or gateways.
SaaS API / cloud serviceНапрямуюНапрямуюНапрямуюНапрямуюAll four agent families can use this layer reliably when API keys are governed and packaged as tools or scripts.
Desktop GUI / RPAОграниченноОграниченноНапрямуюЧерез wrapperOpenClaw is friendlier to browser and desktop control; Codex and Claude Code should not treat GUI automation as the primary path.
Каталог

36 PDF skills / tools с пометкой open vs closed, GitHub и установкой

Каталог рассматривает skills как устанавливаемые строительные блоки: open-source библиотеки, CLI, MCP servers, SaaS APIs и desktop-продукты.

Skill / ToolКатегорияOpen vs closedФорма установкиGitHub / officialЛучше всего дляПримечание
Tesseract OCROCRОткрытыйCLI / библиотека
Универсальный OCRМультиязычный OCR
Сильная локальная open-source базаСильно зависит от предобработки
OCRmyPDFOCRОткрытыйCLI / библиотека
Поисковый PDFПредобработка для agents
Сильная локальная open-source базаЧасто встречается в продакшене
PaddleOCROCRОткрытыйCLI / библиотека
Мультиязычный OCRКорпоративные формы и договоры
Хорошо подходит для китайских сценариевЧасто встречается в продакшене
docTROCRОткрытыйCLI / библиотека
Универсальный OCRКорпоративные формы и договоры
Подходит для исследованийСильно зависит от предобработки
DoclingPDF-парсингОткрытыйCLI / библиотека
Структурирование для LLMСложная верстка
Хорош как базовый компонент pipelineОсобенно хорош с MCP
docling-mcpPDF-парсингОткрытыйMCP
Подходит для MCPСтруктурирование для LLM
Особенно хорош с MCPХорош как базовый компонент pipeline
GROBIDPDF-парсингОткрытыйCLI / библиотека
Академические статьиНаучные и технические PDF
Подходит для исследованийЧасто встречается в продакшене
NougatPDF-парсингОткрытыйCLI / библиотека
Академические статьиДокументы с формулами
Подходит для исследованийНе универсальный OCR
MinerUPDF-парсингОткрытыйCLI / библиотека
Сложная версткаДокументы с формулами
Силен на сложной версткеЧасто встречается в продакшене
PyMuPDFОперации с PDFОткрытыйCLI / библиотека
Высокопроизводительный runtimeЛегкие PDF-операции
Часто встречается в продакшенеХорош как базовый компонент pipeline
PyMuPDF4LLMОперации с PDFОткрытыйCLI / библиотека
Предобработка для agentsСтруктурирование для LLM
Хорош как базовый компонент pipelineЧасто встречается в продакшене
pypdfОперации с PDFОткрытыйCLI / библиотека
Легкие PDF-операцииОперации со структурой PDF
Дружелюбен к pure PythonХорош как базовый компонент pipeline
pdfplumberИзвлечение таблицОткрытыйCLI / библиотека
Отладка таблицТекстовые таблицы
Удобен для отладкиХорош как базовый компонент pipeline
UnstructuredДокументный ETLОткрытыйCLI / библиотека
Чанкинг документовПредобработка для agents
Хорош как базовый компонент pipelineПодходит для команд
unstructured-apiДокументный ETLОткрытыйSaaS API
Внутренний API-слойЧанкинг документов
API-firstПодходит для команд
TabulaИзвлечение таблицОткрытыйCLI / библиотека
Текстовые таблицыПакетное извлечение таблиц
Слаб на шумных сканахЧасто встречается в продакшене
tabula-javaИзвлечение таблицОткрытыйCLI / библиотека
Пакетное извлечение таблицJava enterprise-стеки
Часто встречается в продакшенеХорош как базовый компонент pipeline
qpdfОперации с PDFОткрытыйCLI / библиотека
Операции со структурой PDFПакетная постобработка
Часто встречается в продакшенеХорош как базовый компонент pipeline
pdfcpuОперации с PDFОткрытыйCLI / библиотека
Пакетная постобработкаОперации со структурой PDF
Часто встречается в продакшенеХорош как базовый компонент pipeline
Apache PDFBoxОперации с PDFОткрытыйCLI / библиотека
Java enterprise-стекиОперации со структурой PDF
Часто встречается в продакшенеПодходит для команд
OpenAI PDF FilesRAG / reasoningЗакрытыйSaaS API
Рассуждение по PDFПоиск по нескольким документам
API-firstСильнее в понимании, чем в сохранении верстки
OpenAI File SearchRAG / reasoningЗакрытыйSaaS API
Поиск по нескольким документамКомандный поиск знаний
API-firstПодходит для команд
Claude PDF SupportRAG / reasoningЗакрытыйSaaS API
Рассуждение по PDFНаучные и технические PDF
API-firstСильнее в понимании, чем в сохранении верстки
Claude CitationsДокументный Q&AЗакрытыйSaaS API
Ответы с подтверждениемКомандный поиск знаний
API-firstПодходит для команд
Mistral OCRКорпоративный document AIЗакрытыйSaaS API
Облачный OCR APIСложная верстка
API-firstПовышает стоимость и зависимость от вендора
Mathpix PDF to MarkdownPDF-парсингЗакрытыйSaaS API
Документы с формуламиАкадемические статьи
Подходит для исследованийПовышает стоимость и зависимость от вендора
Google Document AIКорпоративный document AIЗакрытыйSaaS API
Корпоративные формы и договорыВнутренний API-слой
Ориентирован на enterpriseAPI-first
Azure Document IntelligenceКорпоративный document AIЗакрытыйSaaS API
Корпоративные формы и договорыОблачный OCR API
Ориентирован на enterpriseAPI-first
Amazon TextractКорпоративный document AIЗакрытыйSaaS API
Корпоративные формы и договорыОблачный OCR API
Ориентирован на enterpriseAPI-first
Adobe Acrobat AI AssistantДесктопный PDFЗакрытыйДесктопный GUI / RPA
Десктопное ревьюКомандный поиск знаний
GUI-firstЧасто требует wrapper-автоматизации
Adobe Translate PDFПереводЗакрытыйДесктопный GUI / RPA
Десктопный переводческий потокМультиязычная доставка
GUI-firstВысокоценный слой перевода
ABBYY FineReader PDFДесктопный PDFЗакрытыйДесктопный GUI / RPA
Десктопный OCR и проверкаПоисковый PDF
GUI-firstОриентирован на enterprise
NanonetsАвтоматизация счетовЗакрытыйSaaS API
Счета и чекиВнутренний API-слой
API-firstОриентирован на enterprise
RossumАвтоматизация счетовЗакрытыйSaaS API
Счета и чекиКорпоративные формы и договоры
Ориентирован на enterpriseAPI-first
ParseurШаблонное извлечениеЗакрытыйSaaS API
Извлечение по шаблонуВнутренний API-слой
API-firstЧасто встречается в продакшене
RefloПереводЗакрытыйSaaS API
Мультиязычная доставкаДесктопный переводческий поток
Высокоценный слой переводаСилен на сложной верстке
DeepL Files + GlossaryПереводЗакрытыйSaaS API
Перевод с терминологиейМультиязычная доставка
Высокоценный слой переводаПодходит для команд
Smallpdf Translate PDFПереводЗакрытыйДесктопный GUI / RPA
Быстрый потребительский переводДесктопный переводческий поток
GUI-firstЧасто требует wrapper-автоматизации
iLovePDF Translate PDFПереводЗакрытыйДесктопный GUI / RPA
Быстрый потребительский переводДесктопный переводческий поток
GUI-firstЧасто требует wrapper-автоматизации
PDFgear ChatPDFДокументный Q&AЗакрытыйДесктопный GUI / RPA
Десктопный chat с PDFРассуждение по PDF
GUI-firstЧасто требует wrapper-автоматизации
UPDF Chat with PDFДокументный Q&AЗакрытыйДесктопный GUI / RPA
Десктопный chat с PDFРассуждение по PDF
GUI-firstЧасто требует wrapper-автоматизации
AskYourPDFДокументный Q&AЗакрытыйSaaS API
Рассуждение по PDFКомандный поиск знаний
API-firstСильнее в понимании, чем в сохранении верстки
HumataДокументный Q&AЗакрытыйSaaS API
Командный поиск знанийПоиск по нескольким документам
API-firstПодходит для команд
Решение

Продакшен-решение для PDF-agent — это стек, а не список покупок

Надежная схема должна сочетать agent, PDF skills, слой упаковки, контроль прав и регрессионные тесты на реальных документах.

Blueprint A: Local-first open-source PDF agent baseline

Подходит для: Privacy-sensitive teams that want control, lower vendor dependency, and are willing to operate their own stack

Рекомендуемый стек

  • Agent: Claude Code or OpenClaw, with Trae Agent OSS as a strong alternative
  • OCR: Tesseract + OCRmyPDF + PaddleOCR
  • Parsing: Docling / MinerU / GROBID / Nougat
  • Operations: PyMuPDF + pypdf + qpdf + pdfcpu
  • Tables: pdfplumber + Tabula / tabula-java

Внедрение

  • Install PDF capabilities first as CLI tools and Python scripts instead of starting with GUI products.
  • Package those scripts as reusable skills for each agent family: `.claude/skills`, OpenClaw workspace skills, Trae Agent Skills or YAML, and Codex repo scripts plus AGENTS.md.
  • Prepare 5 to 10 sample documents per document type and run regression checks for OCR, tables, formulas, and reading order.

Основные риски

  • Self-hosted stacks cost more to maintain than SaaS layers.
  • Accuracy can drop on complex layouts and low-resource languages.
  • Permissions, logging, and regression governance remain your responsibility.

Blueprint B: Enterprise API-centered PDF agent platform

Подходит для: Enterprises that already run cloud infrastructure and care about SLA, auditability, identity, and compliance

Рекомендуемый стек

  • Agent: Claude Code or Trae, with Codex covering the code and automation layer
  • OCR / extraction: Google Document AI / Azure Document Intelligence / Amazon Textract
  • Knowledge layer: OpenAI PDF Files + File Search or Claude PDF + citations
  • Business flow tools: Nanonets / Rossum / Parseur
  • Post-processing: qpdf / pypdf / PyMuPDF

Внедрение

  • Wrap closed cloud services behind internal APIs or MCP wrappers instead of wiring every vendor directly into the agent.
  • Route contracts, invoices, research PDFs, and branded collateral through different queues rather than sharing a single prompt chain.
  • Put permissions and audit controls in the orchestration layer, not inside prompts.

Основные риски

  • Vendor lock-in and cost growth remain real risks.
  • API output structures may drift after model or service upgrades.
  • Cross-border data flow and compliance boundaries must be reviewed in advance.

Blueprint C: Multilingual PDF delivery stack

Подходит для: Teams handling papers, manuals, contracts, overseas sales assets, and multilingual branded materials

Рекомендуемый стек

  • Agent: Codex or Claude Code for orchestration, batching, review, and download flows
  • Delivery translation layer: Reflo
  • Terminology layer: DeepL Glossary or an internal termbase
  • Post-processing ecosystem: Adobe Acrobat / Adobe Translate PDF
  • Quality control: PyMuPDF / qpdf / pdfcpu

Внедрение

  • Define termbases, language pairs, and document classes before letting the agent run batch orchestration.
  • Route high-value files through the Reflo / DeepL / Adobe combination and reserve lighter products for lower-risk content.
  • Keep a human side-by-side review step before any customer-facing delivery.

Основные риски

  • The closed translation layer costs more than a purely open-source stack.
  • Complex PDFs still require sampled human QA.
  • Errors in branded materials and contracts are expensive, so review gates remain mandatory.
Методология

Метод и модель доказательств

Дата проверки: 2026-04-15
Типы источников: Официальные страницы продуктов, официальные GitHub-репозитории, help center, dev docs и install docs
Объекты исследования: 4 агентные платформы, 36 PDF skills / tools, 6 форм установки и 3 практических blueprint
  • В доказательную базу включены только официальные страницы продуктов, официальные GitHub repo, help center и официальная developer documentation.
  • Installability была разбита на шесть форм: native skills, repo rules, CLI / libraries, MCP, SaaS APIs и GUI / RPA.
  • Совместимость agents оценивалась не по маркетинговым обещаниям, а по наличию официально описанных surfaces: skills, commands, plugins, MCP, workspace files, CLI или APIs.
  • В Codex подтверждены Skills и AGENTS.md, но публичная спецификация native skills пока менее подробна, чем у Claude Code, поэтому часть выводов помечена как implementation guidance.
Источники

Список официальных источников

Чтобы соответствовать EEAT, отчет опирается прежде всего на официальные домены, официальные GitHub, help center и официальную документацию. Любая интерпретация помечается отдельно.

FAQ

Частые вопросы

Claude Code открыт или закрыт?

На 2026-04-15 у Claude Code уже есть официальный GitHub repo. Практически это гибрид: открытый CLI и проприетарные модельные и сервисные слои.

Может ли Codex устанавливать PDF skills так же, как Claude Code?

Да, но самый надежный публичный путь по-прежнему выглядит как AGENTS.md плюс repo scripts и PDF CLI / API tools.

Подходит ли OpenClaw для GUI-ориентированных PDF tools?

Да, особенно когда важны браузер, десктоп и автоматизация хоста. Но CLI / API обычно стабильнее.

Trae открыт или закрыт?

У Trae Agent есть официальный MIT repo, тогда как Trae IDE / SOLO ближе к коммерческим закрытым поверхностям.

Какой минимально жизнеспособный стек нужен для надежного PDF agent?

Обычно стоит начать с OCRmyPDF, Docling или MinerU, PyMuPDF / pypdf и qpdf, а уже потом добавлять OpenAI, Claude, Reflo или DeepL по реальной необходимости.

Итоговая рекомендация

Сначала выбирается форма установки, затем PDF skill, и только потом модель

В 2026 году успех PDF-agent систем больше зависит от установимости через CLI/API/MCP, аудируемости и дизайна прав доступа, чем от бренда модели. Для мультиязычной доставки PDF сильна связка Reflo + DeepL / Adobe; для локальной open-source базы практичным ядром остаются OCRmyPDF, Docling, MinerU, PyMuPDF и qpdf.

Отчет 2026 о PDF Skills: полное руководство по установке и выбору для Codex, Claude Code, OpenClaw и Trae