2026 버전
검증일: 2026-04-15
36 PDF skills / tools
Agent-ready

2026 PDF Skills 리포트: Codex, Claude Code, OpenClaw, Trae를 위한 설치 및 선택 가이드

2026년의 PDF skills 평가는 기능 자체보다도, 그 기능이 Codex, Claude Code, OpenClaw, Trae 같은 agent 안에서 어떻게 설치되고, 제어되고, 운영되며, 프로덕션에 올라가는지를 함께 보는 일이 됐습니다.

가장 중요한 발견

어떤 agent가 PDF skill을 쓸 수 있는지는 모델 이름보다 설치 형태에 먼저 좌우됩니다.

가장 명확한 네이티브 지원

Claude Code는 skills, MCP, plugins가 가장 명확하고, OpenClaw도 workspace skills에서 강합니다.

가장 실용적인 오픈소스 기반

OCRmyPDF, Docling, MinerU, PyMuPDF, qpdf는 2026년에도 가장 실용적인 로컬 오픈소스 조합입니다.

고가치 클로즈드 레이어

Reflo, DeepL, Adobe, OpenAI, Anthropic, Mistral, Google, Azure, AWS는 정확도와 거버넌스를 중시하는 팀에 적합합니다.

핵심 요약

2026년 4월 15일 기준으로 중요한 질문은 어떤 PDF 앱이 가장 강한가가 아니라, 어떤 PDF skill이 실제 agent 스택에 설치되고 감사 가능하며 프로덕션에서 돌아갈 수 있는가입니다.

핵심 판단
  • 2026-04-15 기준으로 OpenClaw와 Trae Agent는 명확한 오픈소스 코드를 제공하고, Claude Code도 공식 GitHub repo를 갖고 있습니다. Codex CLI는 오픈소스지만 Codex app / cloud는 여전히 관리형 제품 표면입니다.
  • PDF 워크플로에서는 CLI / Python / Java 라이브러리가 네 가지 agent 계열을 가로질러 가장 이식성이 높은 설치 형태입니다. MCP는 Claude Code와 Trae에서 가장 잘 정리되어 있고, Codex와 OpenClaw에서는 wrapper 층으로 쓰는 편이 더 안정적입니다.
  • 데스크톱 GUI 기반 PDF 도구도 사용할 수 있지만, 안정성과 감사 가능성 면에서는 일반적으로 CLI / API 경로보다 약합니다.
agent 설치

OpenClaw, Claude Code, Codex, Trae에서 PDF skills를 설치하는 방법

아래 내용은 2026-04-15 기준으로 공개 검증 가능한 공식 자료를 기반으로 하며, 네이티브 지원, 래퍼 기반 지원, GUI 중심 우회 경로를 구분합니다.

Codex

Install the CLI or IDE first, then package PDF tooling with AGENTS.md and skills

하이브리드
적합한 용도: PDF automation inside codebases, batch scripts, document understanding, and translation-delivery workflows

설치 형태

  • Install Codex CLI with `npm install -g @openai/codex` or `brew install --cask codex`.
  • Add `AGENTS.md` at the repo root and document the PDF workflow, test commands, and permission boundaries.
  • Package PDF tooling as repo scripts such as `tools/pdf/run_ocr.sh` or `tools/pdf/parse_docling.py`.
  • If you use Codex skills in the app, CLI, or IDE, bundle instructions, resources, and scripts as reusable skills.

기능과 한계

  • Public documentation now confirms both Skills and AGENTS.md.
  • The CLI is open-source, while the app and cloud remain managed product surfaces.
  • The safest integration path for PDF skills is still repo-level scripts plus AGENTS.md.

Claude Code

Four official extension paths: skills, plugins, MCP, and CLAUDE.md

하이브리드
적합한 용도: Teams that want the clearest official extension model and reusable PDF skills as durable team assets

설치 형태

  • Install Claude Code with `curl -fsSL https://claude.ai/install.sh | bash`, or use Homebrew / WinGet.
  • Native skills live in `~/.claude/skills/<skill>/SKILL.md` or project-level `.claude/skills/<skill>/SKILL.md`.
  • Use `claude mcp add ...` to connect local stdio servers, remote HTTP servers, or OAuth-backed tools.
  • Bundle skills, agents, hooks, and MCP servers into plugins when you need a sharable team distribution format.

기능과 한계

  • Its public documentation is the most explicit across skills, plugins, and MCP.
  • It works well for both native skills and MCP wrappers around OCR, parsing, translation, and RAG services.
  • The core CLI has an official GitHub repo, while the model and service layer remain proprietary.

OpenClaw

Workspace skills, plugins, ClawHub, and a gateway make it the closest thing to a personal agent OS

오픈
적합한 용도: Personal AI assistants, multi-channel automation, and mixed browser / desktop / shell PDF workflows

설치 형태

  • Install OpenClaw from the official repo or install script; the main runtime entry is the Gateway.
  • Workspace skills live in `~/.openclaw/workspace/skills/<skill>/SKILL.md`.
  • Use plugins when a PDF workflow also needs channels, host integrations, or system capabilities.
  • If ClawHub is enabled, agents can search and fetch skills, but production setups should still whitelist and review them.

기능과 한계

  • The official README documents workspace roots, skills paths, and ClawHub behavior clearly.
  • It is stronger than pure IDE agents when browser, desktop, or host-command automation matters.
  • It is also the most open, which means permission control and supply-chain review matter more.

Trae

Trae IDE uses Agent Skills, @Agent, and MCP; the OSS Trae Agent uses YAML plus MCP

하이브리드
적합한 용도: IDE collaboration, multi-agent orchestration, and research-oriented or extensible coding-agent setups

설치 형태

  • Install Trae IDE or SOLO from the official download page when you want the desktop product surface.
  • The official Trae blog already documents Agent Skills creation, import, usage, and MCP support through `@Agent`.
  • For the open-source agent path, use `git clone https://github.com/bytedance/trae-agent.git && uv sync --all-extras`.
  • Add `mcp_servers` in the `trae-agent` config to attach external PDF skills and document tools.

기능과 한계

  • Trae Agent has an official MIT-licensed GitHub repo.
  • The Trae IDE and SOLO product surfaces publicly point to Agent Skills and MCP usage.
  • Use the open agent when you need tighter control; add the IDE when visual workflows matter.
호환성

어떤 agent가 어떤 PDF skill 패키징 형태를 실제로 사용할 수 있는가

PDF를 지원한다는 말이 모든 PDF skill을 지원한다는 뜻은 아닙니다. 실제 호환성은 native skills, repo rules, CLI, MCP, SaaS API, GUI/RPA 같은 설치 형태에 달려 있습니다.

설치 형태CodexClaude CodeOpenClawTrae판정
Native skills / commands직접 사용네이티브네이티브직접 사용Claude Code is the clearest today; OpenClaw has workspace skills; Trae has Agent Skills; Codex publicly confirms Skills but exposes fewer file-system details.
Repo rules files (AGENTS.md / CLAUDE.md / Rules)네이티브직접 사용직접 사용직접 사용All four agent families can consume this layer; it is the most portable and least coupled way to inject team knowledge.
CLI / Python / Java libraries직접 사용직접 사용직접 사용직접 사용This is the most reusable packaging form across agent families and the best first layer to deploy.
MCP server래퍼 경유네이티브래퍼 경유직접 사용Claude Code is strongest natively; Trae also points clearly to MCP; Codex and OpenClaw usually benefit from MCP through wrappers, plugins, or gateways.
SaaS API / cloud service직접 사용직접 사용직접 사용직접 사용All four agent families can use this layer reliably when API keys are governed and packaged as tools or scripts.
Desktop GUI / RPA제한적제한적직접 사용래퍼 경유OpenClaw is friendlier to browser and desktop control; Codex and Claude Code should not treat GUI automation as the primary path.
카탈로그

36개 PDF skills / tools: 오픈/클로즈드, GitHub, 설치 가능성

이 카탈로그는 skills를 설치 가능한 구성요소로 다룹니다. 오픈소스 라이브러리, CLI, MCP 서버, SaaS API, 데스크톱 제품을 한 프레임에서 비교합니다.

Skill / Tool카테고리공개 형태설치 형태GitHub / 공식적합한 용도메모
Tesseract OCROCR오픈소스CLI / 라이브러리
범용 OCR다국어 OCR
로컬 오픈소스 기반으로 적합전처리 품질에 민감함
OCRmyPDFOCR오픈소스CLI / 라이브러리
검색 가능한 PDFagent 전처리
로컬 오픈소스 기반으로 적합프로덕션 파이프라인에서 흔함
PaddleOCROCR오픈소스CLI / 라이브러리
다국어 OCR엔터프라이즈 폼과 계약
중국어 워크플로에 강함프로덕션 파이프라인에서 흔함
docTROCR오픈소스CLI / 라이브러리
범용 OCR엔터프라이즈 폼과 계약
연구 용도에 적합전처리 품질에 민감함
DoclingPDF 파싱오픈소스CLI / 라이브러리
LLM 친화 구조화복잡한 레이아웃
파이프라인 기초 부품으로 적합MCP와 특히 잘 맞음
docling-mcpPDF 파싱오픈소스MCP
MCP 연동 적합LLM 친화 구조화
MCP와 특히 잘 맞음파이프라인 기초 부품으로 적합
GROBIDPDF 파싱오픈소스CLI / 라이브러리
학술 논문연구 및 기술 PDF
연구 용도에 적합프로덕션 파이프라인에서 흔함
NougatPDF 파싱오픈소스CLI / 라이브러리
학술 논문수식이 많은 문서
연구 용도에 적합범용 OCR은 아님
MinerUPDF 파싱오픈소스CLI / 라이브러리
복잡한 레이아웃수식이 많은 문서
복잡한 레이아웃에 강함프로덕션 파이프라인에서 흔함
PyMuPDFPDF 작업오픈소스CLI / 라이브러리
고성능 런타임경량 PDF 작업
프로덕션 파이프라인에서 흔함파이프라인 기초 부품으로 적합
PyMuPDF4LLMPDF 작업오픈소스CLI / 라이브러리
agent 전처리LLM 친화 구조화
파이프라인 기초 부품으로 적합프로덕션 파이프라인에서 흔함
pypdfPDF 작업오픈소스CLI / 라이브러리
경량 PDF 작업PDF 구조 작업
순수 Python 친화적파이프라인 기초 부품으로 적합
pdfplumber표 추출오픈소스CLI / 라이브러리
표 디버깅텍스트 기반 표
디버깅에 좋음파이프라인 기초 부품으로 적합
Unstructured문서 ETL오픈소스CLI / 라이브러리
문서 청킹agent 전처리
파이프라인 기초 부품으로 적합팀 워크플로에 적합
unstructured-api문서 ETL오픈소스SaaS API
내부 API 계층문서 청킹
API-first팀 워크플로에 적합
Tabula표 추출오픈소스CLI / 라이브러리
텍스트 기반 표배치 표 추출
노이즈 많은 스캔에는 약함프로덕션 파이프라인에서 흔함
tabula-java표 추출오픈소스CLI / 라이브러리
배치 표 추출Java 엔터프라이즈 스택
프로덕션 파이프라인에서 흔함파이프라인 기초 부품으로 적합
qpdfPDF 작업오픈소스CLI / 라이브러리
PDF 구조 작업배치 후처리
프로덕션 파이프라인에서 흔함파이프라인 기초 부품으로 적합
pdfcpuPDF 작업오픈소스CLI / 라이브러리
배치 후처리PDF 구조 작업
프로덕션 파이프라인에서 흔함파이프라인 기초 부품으로 적합
Apache PDFBoxPDF 작업오픈소스CLI / 라이브러리
Java 엔터프라이즈 스택PDF 구조 작업
프로덕션 파이프라인에서 흔함팀 워크플로에 적합
OpenAI PDF FilesRAG / 추론클로즈드SaaS API
PDF 추론문서 간 검색
API-first레이아웃 보존보다 이해에 더 강함
OpenAI File SearchRAG / 추론클로즈드SaaS API
문서 간 검색팀 지식 검색
API-first팀 워크플로에 적합
Claude PDF SupportRAG / 추론클로즈드SaaS API
PDF 추론연구 및 기술 PDF
API-first레이아웃 보존보다 이해에 더 강함
Claude Citations문서 Q&A클로즈드SaaS API
근거 기반 답변팀 지식 검색
API-first팀 워크플로에 적합
Mistral OCR엔터프라이즈 문서 AI클로즈드SaaS API
클라우드 OCR API복잡한 레이아웃
API-first비용과 벤더 의존성을 늘림
Mathpix PDF to MarkdownPDF 파싱클로즈드SaaS API
수식이 많은 문서학술 논문
연구 용도에 적합비용과 벤더 의존성을 늘림
Google Document AI엔터프라이즈 문서 AI클로즈드SaaS API
엔터프라이즈 폼과 계약내부 API 계층
엔터프라이즈 지향API-first
Azure Document Intelligence엔터프라이즈 문서 AI클로즈드SaaS API
엔터프라이즈 폼과 계약클라우드 OCR API
엔터프라이즈 지향API-first
Amazon Textract엔터프라이즈 문서 AI클로즈드SaaS API
엔터프라이즈 폼과 계약클라우드 OCR API
엔터프라이즈 지향API-first
Adobe Acrobat AI Assistant데스크톱 PDF클로즈드데스크톱 GUI / RPA
데스크톱 리뷰팀 지식 검색
GUI-first래퍼 자동화가 자주 필요함
Adobe Translate PDF번역클로즈드데스크톱 GUI / RPA
데스크톱 번역 워크플로다국어 전달
GUI-first고가치 번역 레이어
ABBYY FineReader PDF데스크톱 PDF클로즈드데스크톱 GUI / RPA
데스크톱 OCR 및 교정검색 가능한 PDF
GUI-first엔터프라이즈 지향
Nanonets송장 자동화클로즈드SaaS API
송장과 영수증내부 API 계층
API-first엔터프라이즈 지향
Rossum송장 자동화클로즈드SaaS API
송장과 영수증엔터프라이즈 폼과 계약
엔터프라이즈 지향API-first
Parseur템플릿 추출클로즈드SaaS API
템플릿 기반 추출내부 API 계층
API-first프로덕션 파이프라인에서 흔함
Reflo번역클로즈드SaaS API
다국어 전달데스크톱 번역 워크플로
고가치 번역 레이어복잡한 레이아웃에 강함
DeepL Files + Glossary번역클로즈드SaaS API
용어집 기반 번역다국어 전달
고가치 번역 레이어팀 워크플로에 적합
Smallpdf Translate PDF번역클로즈드데스크톱 GUI / RPA
빠른 소비자용 번역데스크톱 번역 워크플로
GUI-first래퍼 자동화가 자주 필요함
iLovePDF Translate PDF번역클로즈드데스크톱 GUI / RPA
빠른 소비자용 번역데스크톱 번역 워크플로
GUI-first래퍼 자동화가 자주 필요함
PDFgear ChatPDF문서 Q&A클로즈드데스크톱 GUI / RPA
데스크톱 PDF 채팅PDF 추론
GUI-first래퍼 자동화가 자주 필요함
UPDF Chat with PDF문서 Q&A클로즈드데스크톱 GUI / RPA
데스크톱 PDF 채팅PDF 추론
GUI-first래퍼 자동화가 자주 필요함
AskYourPDF문서 Q&A클로즈드SaaS API
PDF 추론팀 지식 검색
API-first레이아웃 보존보다 이해에 더 강함
Humata문서 Q&A클로즈드SaaS API
팀 지식 검색문서 간 검색
API-first팀 워크플로에 적합
솔루션

프로덕션용 PDF-agent는 쇼핑 목록이 아니라 스택으로 설계해야 한다

실전 배포용 PDF-agent는 agent, PDF skills, 패키징 레이어, 권한 제어, 샘플 문서 회귀 테스트를 함께 묶어 설계해야 합니다.

Blueprint A: Local-first open-source PDF agent baseline

적합한 팀: Privacy-sensitive teams that want control, lower vendor dependency, and are willing to operate their own stack

추천 스택

  • Agent: Claude Code or OpenClaw, with Trae Agent OSS as a strong alternative
  • OCR: Tesseract + OCRmyPDF + PaddleOCR
  • Parsing: Docling / MinerU / GROBID / Nougat
  • Operations: PyMuPDF + pypdf + qpdf + pdfcpu
  • Tables: pdfplumber + Tabula / tabula-java

구현 단계

  • Install PDF capabilities first as CLI tools and Python scripts instead of starting with GUI products.
  • Package those scripts as reusable skills for each agent family: `.claude/skills`, OpenClaw workspace skills, Trae Agent Skills or YAML, and Codex repo scripts plus AGENTS.md.
  • Prepare 5 to 10 sample documents per document type and run regression checks for OCR, tables, formulas, and reading order.

주요 리스크

  • Self-hosted stacks cost more to maintain than SaaS layers.
  • Accuracy can drop on complex layouts and low-resource languages.
  • Permissions, logging, and regression governance remain your responsibility.

Blueprint B: Enterprise API-centered PDF agent platform

적합한 팀: Enterprises that already run cloud infrastructure and care about SLA, auditability, identity, and compliance

추천 스택

  • Agent: Claude Code or Trae, with Codex covering the code and automation layer
  • OCR / extraction: Google Document AI / Azure Document Intelligence / Amazon Textract
  • Knowledge layer: OpenAI PDF Files + File Search or Claude PDF + citations
  • Business flow tools: Nanonets / Rossum / Parseur
  • Post-processing: qpdf / pypdf / PyMuPDF

구현 단계

  • Wrap closed cloud services behind internal APIs or MCP wrappers instead of wiring every vendor directly into the agent.
  • Route contracts, invoices, research PDFs, and branded collateral through different queues rather than sharing a single prompt chain.
  • Put permissions and audit controls in the orchestration layer, not inside prompts.

주요 리스크

  • Vendor lock-in and cost growth remain real risks.
  • API output structures may drift after model or service upgrades.
  • Cross-border data flow and compliance boundaries must be reviewed in advance.

Blueprint C: Multilingual PDF delivery stack

적합한 팀: Teams handling papers, manuals, contracts, overseas sales assets, and multilingual branded materials

추천 스택

  • Agent: Codex or Claude Code for orchestration, batching, review, and download flows
  • Delivery translation layer: Reflo
  • Terminology layer: DeepL Glossary or an internal termbase
  • Post-processing ecosystem: Adobe Acrobat / Adobe Translate PDF
  • Quality control: PyMuPDF / qpdf / pdfcpu

구현 단계

  • Define termbases, language pairs, and document classes before letting the agent run batch orchestration.
  • Route high-value files through the Reflo / DeepL / Adobe combination and reserve lighter products for lower-risk content.
  • Keep a human side-by-side review step before any customer-facing delivery.

주요 리스크

  • The closed translation layer costs more than a purely open-source stack.
  • Complex PDFs still require sampled human QA.
  • Errors in branded materials and contracts are expensive, so review gates remain mandatory.
방법론

방법과 근거 모델

검증 날짜: 2026-04-15
소스 유형: 공식 제품 페이지, 공식 GitHub 저장소, 도움말 센터, 개발자 문서, 설치 문서
연구 대상: 4개 agent 플랫폼, 36개 PDF skills / tools, 6개 설치 형태, 3개 실행 가능한 블루프린트
  • 근거층에는 공식 제품 페이지, 공식 GitHub repo, 도움말 센터, 공식 개발자 문서만 포함했습니다.
  • 설치 가능성은 native skills, repo rules, CLI / libraries, MCP, SaaS APIs, GUI / RPA의 6가지 형태로 나눠 봤습니다.
  • agent 호환성은 marketing 문구가 아니라 skills, commands, plugins, MCP, workspace files, CLI, APIs 같은 공식 surface 존재 여부로 판단했습니다.
  • Codex에서는 Skills와 AGENTS.md가 확인되지만 native skills의 공개 사양은 Claude Code보다 덜 명시적이어서, 일부 권고는 implementation guidance로 표시했습니다.
소스

공식 소스 목록

EEAT를 유지하기 위해 이 보고서는 공식 도메인, 공식 GitHub, 도움말 센터, 공식 개발자 문서를 우선 사용합니다. 추정은 검증된 사실과 분리해 표시합니다.

FAQ

자주 묻는 질문

Claude Code는 오픈소스인가요, 클로즈드인가요?

2026-04-15 기준으로 공식 GitHub repo가 존재합니다. 실무적으로는 오픈 CLI와 독점 모델/서비스 층이 결합된 하이브리드로 보는 편이 맞습니다.

Codex도 Claude Code처럼 PDF skills를 직접 설치할 수 있나요?

가능하지만, 가장 안정적인 공개 경로는 여전히 AGENTS.md와 repo scripts, 그리고 PDF CLI / API 도구의 조합입니다.

OpenClaw는 GUI 기반 PDF 도구와 잘 맞나요?

그렇습니다. 특히 브라우저, 데스크톱, 호스트 자동화가 중요한 경우에 강합니다. 다만 CLI / API보다 안정성은 떨어질 수 있습니다.

Trae는 오픈소스인가요?

Trae Agent는 공식 MIT repo가 있으며, Trae IDE / SOLO는 상용 제품 표면에 더 가깝습니다.

신뢰할 수 있는 PDF agent의 최소 스택은 무엇인가요?

보통 OCRmyPDF, Docling 또는 MinerU, PyMuPDF / pypdf, qpdf부터 넣고, 그 다음 OpenAI, Claude, Reflo, DeepL을 필요한 만큼만 더하는 방식이 가장 안정적입니다.

최종 권장안

먼저 설치 형태를 고르고, 다음에 PDF skill을 고르고, 마지막에 모델을 고른다

2026년의 PDF-agent 설계에서 더 중요한 것은 모델 이름보다 CLI/API/MCP 설치 가능성, 감사 가능성, 권한 설계입니다. 다국어 PDF 전달에서는 Reflo + DeepL / Adobe가 강하고, 로컬 오픈소스 기준선으로는 OCRmyPDF, Docling, MinerU, PyMuPDF, qpdf가 실용적입니다.

2026 PDF Skills 리포트: Codex, Claude Code, OpenClaw, Trae를 위한 설치 및 선택 가이드