حتى 15 أبريل 2026 لم تعد المسألة أي تطبيق PDF يبدو الأقوى، بل أي PDF skills يمكن تثبيتها وتدقيقها وتشغيلها داخل بنى agents الحقيقية.
- حتى 2026-04-15 يقدّم OpenClaw وTrae Agent شيفرة مفتوحة المصدر بشكل واضح، كما أن Claude Code يملك repo رسمي على GitHub. Codex CLI مفتوح، بينما يظل Codex app / cloud سطحا منتجا مُدارا.
- في مسارات PDF تبقى مكتبات CLI / Python / Java أكثر أشكال التثبيت قابلية للنقل بين عائلات agents الأربع. MCP هو الأقوى توثيقا في Claude Code وTrae، بينما يعمل غالبا بشكل أفضل في Codex وOpenClaw كطبقة wrapper.
- يمكن استخدام أدوات PDF المكتبية ذات الواجهة الرسومية، لكنها عادة أضعف من مسارات CLI / API من حيث الاستقرار وقابلية التدقيق.
كيف يثبّت OpenClaw وClaude Code وCodex وTrae مهارات PDF
تستند الاستنتاجات التالية إلى مصادر رسمية قابلة للتحقق حتى 2026-04-15، مع التفريق بين الدعم الأصلي، والدمج عبر wrapper، والمسارات المعتمدة على GUI.
Codex
Install the CLI or IDE first, then package PDF tooling with AGENTS.md and skills
شكل التثبيت
- Install Codex CLI with `npm install -g @openai/codex` or `brew install --cask codex`.
- Add `AGENTS.md` at the repo root and document the PDF workflow, test commands, and permission boundaries.
- Package PDF tooling as repo scripts such as `tools/pdf/run_ocr.sh` or `tools/pdf/parse_docling.py`.
- If you use Codex skills in the app, CLI, or IDE, bundle instructions, resources, and scripts as reusable skills.
القدرات والحدود
- Public documentation now confirms both Skills and AGENTS.md.
- The CLI is open-source, while the app and cloud remain managed product surfaces.
- The safest integration path for PDF skills is still repo-level scripts plus AGENTS.md.
Claude Code
Four official extension paths: skills, plugins, MCP, and CLAUDE.md
شكل التثبيت
- Install Claude Code with `curl -fsSL https://claude.ai/install.sh | bash`, or use Homebrew / WinGet.
- Native skills live in `~/.claude/skills/<skill>/SKILL.md` or project-level `.claude/skills/<skill>/SKILL.md`.
- Use `claude mcp add ...` to connect local stdio servers, remote HTTP servers, or OAuth-backed tools.
- Bundle skills, agents, hooks, and MCP servers into plugins when you need a sharable team distribution format.
القدرات والحدود
- Its public documentation is the most explicit across skills, plugins, and MCP.
- It works well for both native skills and MCP wrappers around OCR, parsing, translation, and RAG services.
- The core CLI has an official GitHub repo, while the model and service layer remain proprietary.
OpenClaw
Workspace skills, plugins, ClawHub, and a gateway make it the closest thing to a personal agent OS
شكل التثبيت
- Install OpenClaw from the official repo or install script; the main runtime entry is the Gateway.
- Workspace skills live in `~/.openclaw/workspace/skills/<skill>/SKILL.md`.
- Use plugins when a PDF workflow also needs channels, host integrations, or system capabilities.
- If ClawHub is enabled, agents can search and fetch skills, but production setups should still whitelist and review them.
القدرات والحدود
- The official README documents workspace roots, skills paths, and ClawHub behavior clearly.
- It is stronger than pure IDE agents when browser, desktop, or host-command automation matters.
- It is also the most open, which means permission control and supply-chain review matter more.
Trae
Trae IDE uses Agent Skills, @Agent, and MCP; the OSS Trae Agent uses YAML plus MCP
شكل التثبيت
- Install Trae IDE or SOLO from the official download page when you want the desktop product surface.
- The official Trae blog already documents Agent Skills creation, import, usage, and MCP support through `@Agent`.
- For the open-source agent path, use `git clone https://github.com/bytedance/trae-agent.git && uv sync --all-extras`.
- Add `mcp_servers` in the `trae-agent` config to attach external PDF skills and document tools.
القدرات والحدود
- Trae Agent has an official MIT-licensed GitHub repo.
- The Trae IDE and SOLO product surfaces publicly point to Agent Skills and MCP usage.
- Use the open agent when you need tighter control; add the IDE when visual workflows matter.
أي agents يستطيع فعلا استخدام أي شكل من أشكال تغليف PDF skills
دعم PDF لا يعني دعم كل قدرة PDF. التوافق الحقيقي تحدده طريقة التثبيت: skill أصلي، قواعد repo، CLI، MCP، API SaaS، أو GUI/RPA.
| شكل التثبيت | Codex | Claude Code | OpenClaw | Trae | الحكم |
|---|---|---|---|---|---|
| Native skills / commands | مباشر | أصلي | أصلي | مباشر | Claude Code is the clearest today; OpenClaw has workspace skills; Trae has Agent Skills; Codex publicly confirms Skills but exposes fewer file-system details. |
| Repo rules files (AGENTS.md / CLAUDE.md / Rules) | أصلي | مباشر | مباشر | مباشر | All four agent families can consume this layer; it is the most portable and least coupled way to inject team knowledge. |
| CLI / Python / Java libraries | مباشر | مباشر | مباشر | مباشر | This is the most reusable packaging form across agent families and the best first layer to deploy. |
| MCP server | عبر wrapper | أصلي | عبر wrapper | مباشر | Claude Code is strongest natively; Trae also points clearly to MCP; Codex and OpenClaw usually benefit from MCP through wrappers, plugins, or gateways. |
| SaaS API / cloud service | مباشر | مباشر | مباشر | مباشر | All four agent families can use this layer reliably when API keys are governed and packaged as tools or scripts. |
| Desktop GUI / RPA | محدود | محدود | مباشر | عبر wrapper | OpenClaw is friendlier to browser and desktop control; Codex and Claude Code should not treat GUI automation as the primary path. |
36 PDF skills / tools مع حالة الفتح أو الإغلاق وGitHub وقابلية التثبيت
ينظر الدليل إلى skills كعناصر قابلة للتثبيت: مكتبات مفتوحة المصدر، CLI، خوادم MCP، APIs SaaS، ومنتجات سطح المكتب.
| Skill / Tool | الفئة | مفتوح أم مغلق | شكل التثبيت | GitHub / رسمي | الأفضل لـ | ملاحظة |
|---|---|---|---|---|---|---|
| Tesseract OCR | OCR | مفتوح | CLI / مكتبة | OCR عامOCR متعدد اللغات | قاعدة مفتوحة المصدر محلية قويةيعتمد بقوة على المعالجة المسبقة | |
| OCRmyPDF | OCR | مفتوح | CLI / مكتبة | PDF قابل للبحثمعالجة مسبقة للـ agents | قاعدة مفتوحة المصدر محلية قويةشائع في مسارات الإنتاج | |
| PaddleOCR | OCR | مفتوح | CLI / مكتبة | OCR متعدد اللغاتنماذج وعقود المؤسسات | قوي في مسارات العمل الصينيةشائع في مسارات الإنتاج | |
| docTR | OCR | مفتوح | CLI / مكتبة | OCR عامنماذج وعقود المؤسسات | مناسب للبحثيعتمد بقوة على المعالجة المسبقة | |
| Docling | تحليل PDF | مفتوح | CLI / مكتبة | هيكلة جاهزة لـ LLMتخطيطات معقدة | مفيد كبنية تحتية لخط المعالجةيعمل جيدا جدا مع MCP | |
| docling-mcp | تحليل PDF | مفتوح | MCP | مناسب لـ MCPهيكلة جاهزة لـ LLM | يعمل جيدا جدا مع MCPمفيد كبنية تحتية لخط المعالجة | |
| GROBID | تحليل PDF | مفتوح | CLI / مكتبة | أوراق أكاديميةملفات PDF تقنية وبحثية | مناسب للبحثشائع في مسارات الإنتاج | |
| Nougat | تحليل PDF | مفتوح | CLI / مكتبة | أوراق أكاديميةمستندات كثيفة المعادلات | مناسب للبحثليس OCR عاما | |
| MinerU | تحليل PDF | مفتوح | CLI / مكتبة | تخطيطات معقدةمستندات كثيفة المعادلات | قوي مع التخطيطات المعقدةشائع في مسارات الإنتاج | |
| PyMuPDF | عمليات PDF | مفتوح | CLI / مكتبة | بيئة تشغيل عالية الأداءعمليات PDF خفيفة | شائع في مسارات الإنتاجمفيد كبنية تحتية لخط المعالجة | |
| PyMuPDF4LLM | عمليات PDF | مفتوح | CLI / مكتبة | معالجة مسبقة للـ agentsهيكلة جاهزة لـ LLM | مفيد كبنية تحتية لخط المعالجةشائع في مسارات الإنتاج | |
| pypdf | عمليات PDF | مفتوح | CLI / مكتبة | عمليات PDF خفيفةعمليات بنية PDF | مناسب لـ Python الخالصمفيد كبنية تحتية لخط المعالجة | |
| pdfplumber | استخراج الجداول | مفتوح | CLI / مكتبة | تصحيح الجداولجداول نصية | جيد للتصحيحمفيد كبنية تحتية لخط المعالجة | |
| Unstructured | ETL للمستندات | مفتوح | CLI / مكتبة | تجزئة المستنداتمعالجة مسبقة للـ agents | مفيد كبنية تحتية لخط المعالجةمناسب لعمل الفرق | |
| unstructured-api | ETL للمستندات | مفتوح | واجهة SaaS | طبقة API داخليةتجزئة المستندات | API-firstمناسب لعمل الفرق | |
| Tabula | استخراج الجداول | مفتوح | CLI / مكتبة | جداول نصيةاستخراج جداول دفعي | أضعف مع المسوح الضوئية الرديئةشائع في مسارات الإنتاج | |
| tabula-java | استخراج الجداول | مفتوح | CLI / مكتبة | استخراج جداول دفعيبيئات Java للمؤسسات | شائع في مسارات الإنتاجمفيد كبنية تحتية لخط المعالجة | |
| qpdf | عمليات PDF | مفتوح | CLI / مكتبة | عمليات بنية PDFمعالجة لاحقة دفعية | شائع في مسارات الإنتاجمفيد كبنية تحتية لخط المعالجة | |
| pdfcpu | عمليات PDF | مفتوح | CLI / مكتبة | معالجة لاحقة دفعيةعمليات بنية PDF | شائع في مسارات الإنتاجمفيد كبنية تحتية لخط المعالجة | |
| Apache PDFBox | عمليات PDF | مفتوح | CLI / مكتبة | بيئات Java للمؤسساتعمليات بنية PDF | شائع في مسارات الإنتاجمناسب لعمل الفرق | |
| OpenAI PDF Files | RAG / الاستدلال | مغلق | واجهة SaaS | استدلال على PDFبحث عبر المستندات | API-firstأقوى في الفهم من حفظ التخطيط | |
| OpenAI File Search | RAG / الاستدلال | مغلق | واجهة SaaS | بحث عبر المستنداتبحث معرفي للفريق | API-firstمناسب لعمل الفرق | |
| Claude PDF Support | RAG / الاستدلال | مغلق | واجهة SaaS | استدلال على PDFملفات PDF تقنية وبحثية | API-firstأقوى في الفهم من حفظ التخطيط | |
| Claude Citations | أسئلة وأجوبة معرفية | مغلق | واجهة SaaS | إجابات مستندة إلى أدلةبحث معرفي للفريق | API-firstمناسب لعمل الفرق | |
| Mistral OCR | ذكاء المستندات للمؤسسات | مغلق | واجهة SaaS | واجهة OCR سحابيةتخطيطات معقدة | API-firstيزيد الكلفة والاعتماد على المورد | |
| Mathpix PDF to Markdown | تحليل PDF | مغلق | واجهة SaaS | مستندات كثيفة المعادلاتأوراق أكاديمية | مناسب للبحثيزيد الكلفة والاعتماد على المورد | |
| Google Document AI | ذكاء المستندات للمؤسسات | مغلق | واجهة SaaS | نماذج وعقود المؤسساتطبقة API داخلية | موجه للمؤسساتAPI-first | |
| Azure Document Intelligence | ذكاء المستندات للمؤسسات | مغلق | واجهة SaaS | نماذج وعقود المؤسساتواجهة OCR سحابية | موجه للمؤسساتAPI-first | |
| Amazon Textract | ذكاء المستندات للمؤسسات | مغلق | واجهة SaaS | نماذج وعقود المؤسساتواجهة OCR سحابية | موجه للمؤسساتAPI-first | |
| Adobe Acrobat AI Assistant | PDF مكتبي | مغلق | واجهة مكتبية / RPA | مراجعة مكتبيةبحث معرفي للفريق | GUI-firstغالبا يحتاج إلى طبقة wrapper | |
| Adobe Translate PDF | الترجمة | مغلق | واجهة مكتبية / RPA | سير ترجمة مكتبيتسليم متعدد اللغات | GUI-firstطبقة ترجمة عالية القيمة | |
| ABBYY FineReader PDF | PDF مكتبي | مغلق | واجهة مكتبية / RPA | OCR ومراجعة مكتبيةPDF قابل للبحث | GUI-firstموجه للمؤسسات | |
| Nanonets | أتمتة الفواتير | مغلق | واجهة SaaS | فواتير وإيصالاتطبقة API داخلية | API-firstموجه للمؤسسات | |
| Rossum | أتمتة الفواتير | مغلق | واجهة SaaS | فواتير وإيصالاتنماذج وعقود المؤسسات | موجه للمؤسساتAPI-first | |
| Parseur | استخراج بالقوالب | مغلق | واجهة SaaS | استخراج قائم على القوالبطبقة API داخلية | API-firstشائع في مسارات الإنتاج | |
| Reflo | الترجمة | مغلق | واجهة SaaS | تسليم متعدد اللغاتسير ترجمة مكتبي | طبقة ترجمة عالية القيمةقوي مع التخطيطات المعقدة | |
| DeepL Files + Glossary | الترجمة | مغلق | واجهة SaaS | ترجمة معتمدة على المصطلحاتتسليم متعدد اللغات | طبقة ترجمة عالية القيمةمناسب لعمل الفرق | |
| Smallpdf Translate PDF | الترجمة | مغلق | واجهة مكتبية / RPA | ترجمة سريعة للمستخدم العاديسير ترجمة مكتبي | GUI-firstغالبا يحتاج إلى طبقة wrapper | |
| iLovePDF Translate PDF | الترجمة | مغلق | واجهة مكتبية / RPA | ترجمة سريعة للمستخدم العاديسير ترجمة مكتبي | GUI-firstغالبا يحتاج إلى طبقة wrapper | |
| PDFgear ChatPDF | أسئلة وأجوبة معرفية | مغلق | واجهة مكتبية / RPA | دردشة PDF على سطح المكتباستدلال على PDF | GUI-firstغالبا يحتاج إلى طبقة wrapper | |
| UPDF Chat with PDF | أسئلة وأجوبة معرفية | مغلق | واجهة مكتبية / RPA | دردشة PDF على سطح المكتباستدلال على PDF | GUI-firstغالبا يحتاج إلى طبقة wrapper | |
| AskYourPDF | أسئلة وأجوبة معرفية | مغلق | واجهة SaaS | استدلال على PDFبحث معرفي للفريق | API-firstأقوى في الفهم من حفظ التخطيط | |
| Humata | أسئلة وأجوبة معرفية | مغلق | واجهة SaaS | بحث معرفي للفريقبحث عبر المستندات | API-firstمناسب لعمل الفرق |
حل PDF-agent الجاهز للإنتاج هو stack كامل وليس قائمة مشتريات
الحل القابل للتشغيل يجمع agent وPDF skills وطبقة تغليف وتحكم في الصلاحيات واختبارات انحدار على مستندات حقيقية.
Blueprint A: Local-first open-source PDF agent baseline
الـ stack الموصى به
- Agent: Claude Code or OpenClaw, with Trae Agent OSS as a strong alternative
- OCR: Tesseract + OCRmyPDF + PaddleOCR
- Parsing: Docling / MinerU / GROBID / Nougat
- Operations: PyMuPDF + pypdf + qpdf + pdfcpu
- Tables: pdfplumber + Tabula / tabula-java
خطوات التنفيذ
- Install PDF capabilities first as CLI tools and Python scripts instead of starting with GUI products.
- Package those scripts as reusable skills for each agent family: `.claude/skills`, OpenClaw workspace skills, Trae Agent Skills or YAML, and Codex repo scripts plus AGENTS.md.
- Prepare 5 to 10 sample documents per document type and run regression checks for OCR, tables, formulas, and reading order.
المخاطر الرئيسية
- Self-hosted stacks cost more to maintain than SaaS layers.
- Accuracy can drop on complex layouts and low-resource languages.
- Permissions, logging, and regression governance remain your responsibility.
Blueprint B: Enterprise API-centered PDF agent platform
الـ stack الموصى به
- Agent: Claude Code or Trae, with Codex covering the code and automation layer
- OCR / extraction: Google Document AI / Azure Document Intelligence / Amazon Textract
- Knowledge layer: OpenAI PDF Files + File Search or Claude PDF + citations
- Business flow tools: Nanonets / Rossum / Parseur
- Post-processing: qpdf / pypdf / PyMuPDF
خطوات التنفيذ
- Wrap closed cloud services behind internal APIs or MCP wrappers instead of wiring every vendor directly into the agent.
- Route contracts, invoices, research PDFs, and branded collateral through different queues rather than sharing a single prompt chain.
- Put permissions and audit controls in the orchestration layer, not inside prompts.
المخاطر الرئيسية
- Vendor lock-in and cost growth remain real risks.
- API output structures may drift after model or service upgrades.
- Cross-border data flow and compliance boundaries must be reviewed in advance.
Blueprint C: Multilingual PDF delivery stack
الـ stack الموصى به
- Agent: Codex or Claude Code for orchestration, batching, review, and download flows
- Delivery translation layer: Reflo
- Terminology layer: DeepL Glossary or an internal termbase
- Post-processing ecosystem: Adobe Acrobat / Adobe Translate PDF
- Quality control: PyMuPDF / qpdf / pdfcpu
خطوات التنفيذ
- Define termbases, language pairs, and document classes before letting the agent run batch orchestration.
- Route high-value files through the Reflo / DeepL / Adobe combination and reserve lighter products for lower-risk content.
- Keep a human side-by-side review step before any customer-facing delivery.
المخاطر الرئيسية
- The closed translation layer costs more than a purely open-source stack.
- Complex PDFs still require sampled human QA.
- Errors in branded materials and contracts are expensive, so review gates remain mandatory.
المنهج ونموذج الأدلة
أنواع المصادر: صفحات المنتجات الرسمية، مستودعات GitHub الرسمية، مراكز المساعدة، وثائق المطورين، ووثائق التثبيت
موضوعات البحث: 4 منصات agents و36 PDF skills / tools و6 أشكال تثبيت و3 مخططات تطبيق
- تقتصر طبقة الأدلة على صفحات المنتجات الرسمية وrepos GitHub الرسمية ومراكز المساعدة والوثائق الرسمية للمطورين.
- تم تقسيم قابلية التثبيت إلى ستة أشكال: native skills وقواعد repo وCLI / libraries وMCP وAPI SaaS وGUI / RPA.
- تم الحكم على توافق agents بناء على وجود أسطح رسمية مثل skills وcommands وplugins وMCP وworkspace files وCLI وAPIs، لا على عبارات التسويق.
- في Codex تم تأكيد Skills وAGENTS.md، لكن المواصفة العامة لـ native skills ما زالت أقل وضوحا من Claude Code، لذلك توصف بعض التوصيات كإرشاد تنفيذي.
قائمة المصادر الرسمية
للالتزام بـ EEAT يعتمد هذا التقرير أولا على النطاقات الرسمية وGitHub الرسمي ومراكز المساعدة والوثائق الرسمية. أي استنتاج غير مباشر يتم تمييزه بوضوح.
Codex
Claude Code
OpenClaw
Trae
Open-source PDF stack
Closed / cloud PDF stack
- OpenAI PDF files guide
- OpenAI file search
- Claude PDF support
- Claude citations
- Mistral OCR
- Mathpix PDF to Markdown
- Google Document AI overview
- Azure Document Intelligence overview
- Amazon Textract overview
- Adobe Acrobat AI Assistant
- Adobe Translate PDF
- ABBYY FineReader PDF
- Reflo upload
- DeepL file translation
- DeepL glossary for file translation
الأسئلة الشائعة
هل Claude Code مفتوح المصدر أم مغلق؟
حتى 2026-04-15 يوجد repo رسمي على GitHub. عمليا يجب اعتباره حلا هجينا: CLI مفتوح مع طبقات نماذج وخدمات مغلقة.
هل يستطيع Codex تثبيت PDF skills مثل Claude Code؟
نعم، لكن المسار العام الأكثر أمانا ما يزال AGENTS.md مع scripts داخل repo وأدوات PDF عبر CLI أو API.
هل OpenClaw مناسب لأدوات PDF المعتمدة على GUI؟
نعم، خاصة عندما يكون المتصفح وسطح المكتب وأتمتة المضيف مهمة. ومع ذلك تبقى CLI / API أكثر استقرارا عادة.
هل Trae مفتوح المصدر؟
يمتلك Trae Agent repo رسميا مفتوحا بترخيص MIT، بينما يبقى Trae IDE / SOLO أقرب إلى أسطح منتجات تجارية مغلقة.
ما هو الحد الأدنى العملي لبناء PDF agent موثوق؟
غالبا يبدأ الأمر بـ OCRmyPDF وDocling أو MinerU وPyMuPDF / pypdf وqpdf، ثم تضاف طبقات OpenAI أو Claude أو Reflo أو DeepL حسب الحاجة الفعلية.
اختر شكل التثبيت أولا، ثم PDF skill، ثم اسم النموذج
في 2026 يتحدد نجاح أنظمة PDF-agent أكثر بقابلية التثبيت عبر CLI/API/MCP وقابلية التدقيق وتصميم الصلاحيات، لا فقط باسم النموذج. ولتسليم PDF متعدد اللغات تبقى Reflo مع DeepL أو Adobe قوية، بينما تشكل OCRmyPDF وDocling وMinerU وPyMuPDF وqpdf نواة عملية محلية مفتوحة المصدر.