2026년 4월 15일 기준으로 중요한 질문은 어떤 PDF 앱이 가장 강한가가 아니라, 어떤 PDF skill이 실제 agent 스택에 설치되고 감사 가능하며 프로덕션에서 돌아갈 수 있는가입니다.
- 2026-04-15 기준으로 OpenClaw와 Trae Agent는 명확한 오픈소스 코드를 제공하고, Claude Code도 공식 GitHub repo를 갖고 있습니다. Codex CLI는 오픈소스지만 Codex app / cloud는 여전히 관리형 제품 표면입니다.
- PDF 워크플로에서는 CLI / Python / Java 라이브러리가 네 가지 agent 계열을 가로질러 가장 이식성이 높은 설치 형태입니다. MCP는 Claude Code와 Trae에서 가장 잘 정리되어 있고, Codex와 OpenClaw에서는 wrapper 층으로 쓰는 편이 더 안정적입니다.
- 데스크톱 GUI 기반 PDF 도구도 사용할 수 있지만, 안정성과 감사 가능성 면에서는 일반적으로 CLI / API 경로보다 약합니다.
OpenClaw, Claude Code, Codex, Trae에서 PDF skills를 설치하는 방법
아래 내용은 2026-04-15 기준으로 공개 검증 가능한 공식 자료를 기반으로 하며, 네이티브 지원, 래퍼 기반 지원, GUI 중심 우회 경로를 구분합니다.
Codex
Install the CLI or IDE first, then package PDF tooling with AGENTS.md and skills
설치 형태
- Install Codex CLI with `npm install -g @openai/codex` or `brew install --cask codex`.
- Add `AGENTS.md` at the repo root and document the PDF workflow, test commands, and permission boundaries.
- Package PDF tooling as repo scripts such as `tools/pdf/run_ocr.sh` or `tools/pdf/parse_docling.py`.
- If you use Codex skills in the app, CLI, or IDE, bundle instructions, resources, and scripts as reusable skills.
기능과 한계
- Public documentation now confirms both Skills and AGENTS.md.
- The CLI is open-source, while the app and cloud remain managed product surfaces.
- The safest integration path for PDF skills is still repo-level scripts plus AGENTS.md.
Claude Code
Four official extension paths: skills, plugins, MCP, and CLAUDE.md
설치 형태
- Install Claude Code with `curl -fsSL https://claude.ai/install.sh | bash`, or use Homebrew / WinGet.
- Native skills live in `~/.claude/skills/<skill>/SKILL.md` or project-level `.claude/skills/<skill>/SKILL.md`.
- Use `claude mcp add ...` to connect local stdio servers, remote HTTP servers, or OAuth-backed tools.
- Bundle skills, agents, hooks, and MCP servers into plugins when you need a sharable team distribution format.
기능과 한계
- Its public documentation is the most explicit across skills, plugins, and MCP.
- It works well for both native skills and MCP wrappers around OCR, parsing, translation, and RAG services.
- The core CLI has an official GitHub repo, while the model and service layer remain proprietary.
OpenClaw
Workspace skills, plugins, ClawHub, and a gateway make it the closest thing to a personal agent OS
설치 형태
- Install OpenClaw from the official repo or install script; the main runtime entry is the Gateway.
- Workspace skills live in `~/.openclaw/workspace/skills/<skill>/SKILL.md`.
- Use plugins when a PDF workflow also needs channels, host integrations, or system capabilities.
- If ClawHub is enabled, agents can search and fetch skills, but production setups should still whitelist and review them.
기능과 한계
- The official README documents workspace roots, skills paths, and ClawHub behavior clearly.
- It is stronger than pure IDE agents when browser, desktop, or host-command automation matters.
- It is also the most open, which means permission control and supply-chain review matter more.
Trae
Trae IDE uses Agent Skills, @Agent, and MCP; the OSS Trae Agent uses YAML plus MCP
설치 형태
- Install Trae IDE or SOLO from the official download page when you want the desktop product surface.
- The official Trae blog already documents Agent Skills creation, import, usage, and MCP support through `@Agent`.
- For the open-source agent path, use `git clone https://github.com/bytedance/trae-agent.git && uv sync --all-extras`.
- Add `mcp_servers` in the `trae-agent` config to attach external PDF skills and document tools.
기능과 한계
- Trae Agent has an official MIT-licensed GitHub repo.
- The Trae IDE and SOLO product surfaces publicly point to Agent Skills and MCP usage.
- Use the open agent when you need tighter control; add the IDE when visual workflows matter.
어떤 agent가 어떤 PDF skill 패키징 형태를 실제로 사용할 수 있는가
PDF를 지원한다는 말이 모든 PDF skill을 지원한다는 뜻은 아닙니다. 실제 호환성은 native skills, repo rules, CLI, MCP, SaaS API, GUI/RPA 같은 설치 형태에 달려 있습니다.
| 설치 형태 | Codex | Claude Code | OpenClaw | Trae | 판정 |
|---|---|---|---|---|---|
| Native skills / commands | 직접 사용 | 네이티브 | 네이티브 | 직접 사용 | Claude Code is the clearest today; OpenClaw has workspace skills; Trae has Agent Skills; Codex publicly confirms Skills but exposes fewer file-system details. |
| Repo rules files (AGENTS.md / CLAUDE.md / Rules) | 네이티브 | 직접 사용 | 직접 사용 | 직접 사용 | All four agent families can consume this layer; it is the most portable and least coupled way to inject team knowledge. |
| CLI / Python / Java libraries | 직접 사용 | 직접 사용 | 직접 사용 | 직접 사용 | This is the most reusable packaging form across agent families and the best first layer to deploy. |
| MCP server | 래퍼 경유 | 네이티브 | 래퍼 경유 | 직접 사용 | Claude Code is strongest natively; Trae also points clearly to MCP; Codex and OpenClaw usually benefit from MCP through wrappers, plugins, or gateways. |
| SaaS API / cloud service | 직접 사용 | 직접 사용 | 직접 사용 | 직접 사용 | All four agent families can use this layer reliably when API keys are governed and packaged as tools or scripts. |
| Desktop GUI / RPA | 제한적 | 제한적 | 직접 사용 | 래퍼 경유 | OpenClaw is friendlier to browser and desktop control; Codex and Claude Code should not treat GUI automation as the primary path. |
36개 PDF skills / tools: 오픈/클로즈드, GitHub, 설치 가능성
이 카탈로그는 skills를 설치 가능한 구성요소로 다룹니다. 오픈소스 라이브러리, CLI, MCP 서버, SaaS API, 데스크톱 제품을 한 프레임에서 비교합니다.
| Skill / Tool | 카테고리 | 공개 형태 | 설치 형태 | GitHub / 공식 | 적합한 용도 | 메모 |
|---|---|---|---|---|---|---|
| Tesseract OCR | OCR | 오픈소스 | CLI / 라이브러리 | 범용 OCR다국어 OCR | 로컬 오픈소스 기반으로 적합전처리 품질에 민감함 | |
| OCRmyPDF | OCR | 오픈소스 | CLI / 라이브러리 | 검색 가능한 PDFagent 전처리 | 로컬 오픈소스 기반으로 적합프로덕션 파이프라인에서 흔함 | |
| PaddleOCR | OCR | 오픈소스 | CLI / 라이브러리 | 다국어 OCR엔터프라이즈 폼과 계약 | 중국어 워크플로에 강함프로덕션 파이프라인에서 흔함 | |
| docTR | OCR | 오픈소스 | CLI / 라이브러리 | 범용 OCR엔터프라이즈 폼과 계약 | 연구 용도에 적합전처리 품질에 민감함 | |
| Docling | PDF 파싱 | 오픈소스 | CLI / 라이브러리 | LLM 친화 구조화복잡한 레이아웃 | 파이프라인 기초 부품으로 적합MCP와 특히 잘 맞음 | |
| docling-mcp | PDF 파싱 | 오픈소스 | MCP | MCP 연동 적합LLM 친화 구조화 | MCP와 특히 잘 맞음파이프라인 기초 부품으로 적합 | |
| GROBID | PDF 파싱 | 오픈소스 | CLI / 라이브러리 | 학술 논문연구 및 기술 PDF | 연구 용도에 적합프로덕션 파이프라인에서 흔함 | |
| Nougat | PDF 파싱 | 오픈소스 | CLI / 라이브러리 | 학술 논문수식이 많은 문서 | 연구 용도에 적합범용 OCR은 아님 | |
| MinerU | PDF 파싱 | 오픈소스 | CLI / 라이브러리 | 복잡한 레이아웃수식이 많은 문서 | 복잡한 레이아웃에 강함프로덕션 파이프라인에서 흔함 | |
| PyMuPDF | PDF 작업 | 오픈소스 | CLI / 라이브러리 | 고성능 런타임경량 PDF 작업 | 프로덕션 파이프라인에서 흔함파이프라인 기초 부품으로 적합 | |
| PyMuPDF4LLM | PDF 작업 | 오픈소스 | CLI / 라이브러리 | agent 전처리LLM 친화 구조화 | 파이프라인 기초 부품으로 적합프로덕션 파이프라인에서 흔함 | |
| pypdf | PDF 작업 | 오픈소스 | CLI / 라이브러리 | 경량 PDF 작업PDF 구조 작업 | 순수 Python 친화적파이프라인 기초 부품으로 적합 | |
| pdfplumber | 표 추출 | 오픈소스 | CLI / 라이브러리 | 표 디버깅텍스트 기반 표 | 디버깅에 좋음파이프라인 기초 부품으로 적합 | |
| Unstructured | 문서 ETL | 오픈소스 | CLI / 라이브러리 | 문서 청킹agent 전처리 | 파이프라인 기초 부품으로 적합팀 워크플로에 적합 | |
| unstructured-api | 문서 ETL | 오픈소스 | SaaS API | 내부 API 계층문서 청킹 | API-first팀 워크플로에 적합 | |
| Tabula | 표 추출 | 오픈소스 | CLI / 라이브러리 | 텍스트 기반 표배치 표 추출 | 노이즈 많은 스캔에는 약함프로덕션 파이프라인에서 흔함 | |
| tabula-java | 표 추출 | 오픈소스 | CLI / 라이브러리 | 배치 표 추출Java 엔터프라이즈 스택 | 프로덕션 파이프라인에서 흔함파이프라인 기초 부품으로 적합 | |
| qpdf | PDF 작업 | 오픈소스 | CLI / 라이브러리 | PDF 구조 작업배치 후처리 | 프로덕션 파이프라인에서 흔함파이프라인 기초 부품으로 적합 | |
| pdfcpu | PDF 작업 | 오픈소스 | CLI / 라이브러리 | 배치 후처리PDF 구조 작업 | 프로덕션 파이프라인에서 흔함파이프라인 기초 부품으로 적합 | |
| Apache PDFBox | PDF 작업 | 오픈소스 | CLI / 라이브러리 | Java 엔터프라이즈 스택PDF 구조 작업 | 프로덕션 파이프라인에서 흔함팀 워크플로에 적합 | |
| OpenAI PDF Files | RAG / 추론 | 클로즈드 | SaaS API | PDF 추론문서 간 검색 | API-first레이아웃 보존보다 이해에 더 강함 | |
| OpenAI File Search | RAG / 추론 | 클로즈드 | SaaS API | 문서 간 검색팀 지식 검색 | API-first팀 워크플로에 적합 | |
| Claude PDF Support | RAG / 추론 | 클로즈드 | SaaS API | PDF 추론연구 및 기술 PDF | API-first레이아웃 보존보다 이해에 더 강함 | |
| Claude Citations | 문서 Q&A | 클로즈드 | SaaS API | 근거 기반 답변팀 지식 검색 | API-first팀 워크플로에 적합 | |
| Mistral OCR | 엔터프라이즈 문서 AI | 클로즈드 | SaaS API | 클라우드 OCR API복잡한 레이아웃 | API-first비용과 벤더 의존성을 늘림 | |
| Mathpix PDF to Markdown | PDF 파싱 | 클로즈드 | SaaS API | 수식이 많은 문서학술 논문 | 연구 용도에 적합비용과 벤더 의존성을 늘림 | |
| Google Document AI | 엔터프라이즈 문서 AI | 클로즈드 | SaaS API | 엔터프라이즈 폼과 계약내부 API 계층 | 엔터프라이즈 지향API-first | |
| Azure Document Intelligence | 엔터프라이즈 문서 AI | 클로즈드 | SaaS API | 엔터프라이즈 폼과 계약클라우드 OCR API | 엔터프라이즈 지향API-first | |
| Amazon Textract | 엔터프라이즈 문서 AI | 클로즈드 | SaaS API | 엔터프라이즈 폼과 계약클라우드 OCR API | 엔터프라이즈 지향API-first | |
| Adobe Acrobat AI Assistant | 데스크톱 PDF | 클로즈드 | 데스크톱 GUI / RPA | 데스크톱 리뷰팀 지식 검색 | GUI-first래퍼 자동화가 자주 필요함 | |
| Adobe Translate PDF | 번역 | 클로즈드 | 데스크톱 GUI / RPA | 데스크톱 번역 워크플로다국어 전달 | GUI-first고가치 번역 레이어 | |
| ABBYY FineReader PDF | 데스크톱 PDF | 클로즈드 | 데스크톱 GUI / RPA | 데스크톱 OCR 및 교정검색 가능한 PDF | GUI-first엔터프라이즈 지향 | |
| Nanonets | 송장 자동화 | 클로즈드 | SaaS API | 송장과 영수증내부 API 계층 | API-first엔터프라이즈 지향 | |
| Rossum | 송장 자동화 | 클로즈드 | SaaS API | 송장과 영수증엔터프라이즈 폼과 계약 | 엔터프라이즈 지향API-first | |
| Parseur | 템플릿 추출 | 클로즈드 | SaaS API | 템플릿 기반 추출내부 API 계층 | API-first프로덕션 파이프라인에서 흔함 | |
| Reflo | 번역 | 클로즈드 | SaaS API | 다국어 전달데스크톱 번역 워크플로 | 고가치 번역 레이어복잡한 레이아웃에 강함 | |
| DeepL Files + Glossary | 번역 | 클로즈드 | SaaS API | 용어집 기반 번역다국어 전달 | 고가치 번역 레이어팀 워크플로에 적합 | |
| Smallpdf Translate PDF | 번역 | 클로즈드 | 데스크톱 GUI / RPA | 빠른 소비자용 번역데스크톱 번역 워크플로 | GUI-first래퍼 자동화가 자주 필요함 | |
| iLovePDF Translate PDF | 번역 | 클로즈드 | 데스크톱 GUI / RPA | 빠른 소비자용 번역데스크톱 번역 워크플로 | GUI-first래퍼 자동화가 자주 필요함 | |
| PDFgear ChatPDF | 문서 Q&A | 클로즈드 | 데스크톱 GUI / RPA | 데스크톱 PDF 채팅PDF 추론 | GUI-first래퍼 자동화가 자주 필요함 | |
| UPDF Chat with PDF | 문서 Q&A | 클로즈드 | 데스크톱 GUI / RPA | 데스크톱 PDF 채팅PDF 추론 | GUI-first래퍼 자동화가 자주 필요함 | |
| AskYourPDF | 문서 Q&A | 클로즈드 | SaaS API | PDF 추론팀 지식 검색 | API-first레이아웃 보존보다 이해에 더 강함 | |
| Humata | 문서 Q&A | 클로즈드 | SaaS API | 팀 지식 검색문서 간 검색 | API-first팀 워크플로에 적합 |
프로덕션용 PDF-agent는 쇼핑 목록이 아니라 스택으로 설계해야 한다
실전 배포용 PDF-agent는 agent, PDF skills, 패키징 레이어, 권한 제어, 샘플 문서 회귀 테스트를 함께 묶어 설계해야 합니다.
Blueprint A: Local-first open-source PDF agent baseline
추천 스택
- Agent: Claude Code or OpenClaw, with Trae Agent OSS as a strong alternative
- OCR: Tesseract + OCRmyPDF + PaddleOCR
- Parsing: Docling / MinerU / GROBID / Nougat
- Operations: PyMuPDF + pypdf + qpdf + pdfcpu
- Tables: pdfplumber + Tabula / tabula-java
구현 단계
- Install PDF capabilities first as CLI tools and Python scripts instead of starting with GUI products.
- Package those scripts as reusable skills for each agent family: `.claude/skills`, OpenClaw workspace skills, Trae Agent Skills or YAML, and Codex repo scripts plus AGENTS.md.
- Prepare 5 to 10 sample documents per document type and run regression checks for OCR, tables, formulas, and reading order.
주요 리스크
- Self-hosted stacks cost more to maintain than SaaS layers.
- Accuracy can drop on complex layouts and low-resource languages.
- Permissions, logging, and regression governance remain your responsibility.
Blueprint B: Enterprise API-centered PDF agent platform
추천 스택
- Agent: Claude Code or Trae, with Codex covering the code and automation layer
- OCR / extraction: Google Document AI / Azure Document Intelligence / Amazon Textract
- Knowledge layer: OpenAI PDF Files + File Search or Claude PDF + citations
- Business flow tools: Nanonets / Rossum / Parseur
- Post-processing: qpdf / pypdf / PyMuPDF
구현 단계
- Wrap closed cloud services behind internal APIs or MCP wrappers instead of wiring every vendor directly into the agent.
- Route contracts, invoices, research PDFs, and branded collateral through different queues rather than sharing a single prompt chain.
- Put permissions and audit controls in the orchestration layer, not inside prompts.
주요 리스크
- Vendor lock-in and cost growth remain real risks.
- API output structures may drift after model or service upgrades.
- Cross-border data flow and compliance boundaries must be reviewed in advance.
Blueprint C: Multilingual PDF delivery stack
추천 스택
- Agent: Codex or Claude Code for orchestration, batching, review, and download flows
- Delivery translation layer: Reflo
- Terminology layer: DeepL Glossary or an internal termbase
- Post-processing ecosystem: Adobe Acrobat / Adobe Translate PDF
- Quality control: PyMuPDF / qpdf / pdfcpu
구현 단계
- Define termbases, language pairs, and document classes before letting the agent run batch orchestration.
- Route high-value files through the Reflo / DeepL / Adobe combination and reserve lighter products for lower-risk content.
- Keep a human side-by-side review step before any customer-facing delivery.
주요 리스크
- The closed translation layer costs more than a purely open-source stack.
- Complex PDFs still require sampled human QA.
- Errors in branded materials and contracts are expensive, so review gates remain mandatory.
방법과 근거 모델
소스 유형: 공식 제품 페이지, 공식 GitHub 저장소, 도움말 센터, 개발자 문서, 설치 문서
연구 대상: 4개 agent 플랫폼, 36개 PDF skills / tools, 6개 설치 형태, 3개 실행 가능한 블루프린트
- 근거층에는 공식 제품 페이지, 공식 GitHub repo, 도움말 센터, 공식 개발자 문서만 포함했습니다.
- 설치 가능성은 native skills, repo rules, CLI / libraries, MCP, SaaS APIs, GUI / RPA의 6가지 형태로 나눠 봤습니다.
- agent 호환성은 marketing 문구가 아니라 skills, commands, plugins, MCP, workspace files, CLI, APIs 같은 공식 surface 존재 여부로 판단했습니다.
- Codex에서는 Skills와 AGENTS.md가 확인되지만 native skills의 공개 사양은 Claude Code보다 덜 명시적이어서, 일부 권고는 implementation guidance로 표시했습니다.
공식 소스 목록
EEAT를 유지하기 위해 이 보고서는 공식 도메인, 공식 GitHub, 도움말 센터, 공식 개발자 문서를 우선 사용합니다. 추정은 검증된 사실과 분리해 표시합니다.
Codex
Claude Code
OpenClaw
Trae
Open-source PDF stack
Closed / cloud PDF stack
- OpenAI PDF files guide
- OpenAI file search
- Claude PDF support
- Claude citations
- Mistral OCR
- Mathpix PDF to Markdown
- Google Document AI overview
- Azure Document Intelligence overview
- Amazon Textract overview
- Adobe Acrobat AI Assistant
- Adobe Translate PDF
- ABBYY FineReader PDF
- Reflo upload
- DeepL file translation
- DeepL glossary for file translation
자주 묻는 질문
Claude Code는 오픈소스인가요, 클로즈드인가요?
2026-04-15 기준으로 공식 GitHub repo가 존재합니다. 실무적으로는 오픈 CLI와 독점 모델/서비스 층이 결합된 하이브리드로 보는 편이 맞습니다.
Codex도 Claude Code처럼 PDF skills를 직접 설치할 수 있나요?
가능하지만, 가장 안정적인 공개 경로는 여전히 AGENTS.md와 repo scripts, 그리고 PDF CLI / API 도구의 조합입니다.
OpenClaw는 GUI 기반 PDF 도구와 잘 맞나요?
그렇습니다. 특히 브라우저, 데스크톱, 호스트 자동화가 중요한 경우에 강합니다. 다만 CLI / API보다 안정성은 떨어질 수 있습니다.
Trae는 오픈소스인가요?
Trae Agent는 공식 MIT repo가 있으며, Trae IDE / SOLO는 상용 제품 표면에 더 가깝습니다.
신뢰할 수 있는 PDF agent의 최소 스택은 무엇인가요?
보통 OCRmyPDF, Docling 또는 MinerU, PyMuPDF / pypdf, qpdf부터 넣고, 그 다음 OpenAI, Claude, Reflo, DeepL을 필요한 만큼만 더하는 방식이 가장 안정적입니다.