Vì Sao Cần Chọn Đúng Tool PDF → Markdown?
Nếu bạn đang xây RAG, chatbot tài liệu, hoặc đơn giản là muốn ChatGPT trả lời chính xác về một file PDF — bước tiền xử lý PDF → Markdown quyết định 70% chất lượng output cuối.
Vấn đề: hầu hết tool online chỉ lấy text-layer của PDF (PyPDF2, PyMuPDF text-mode) rồi dán phẳng — kết quả gãy ngay với 4 loại file thường gặp:
- 📑 PDF scan / ảnh chụp giấy tờ — không có text-layer, tool bốc rỗng
- 📊 Bảng có ô gộp (colspan/rowspan) — markdown pipe
| col1 | col2 |vỡ chữ, dữ liệu dồn cục - 🧮 Công thức toán — bị flatten thành ký tự lạ (
EβᵢXᵢthay vì LaTeX\sum \beta_i X_i) - 📰 Multi-column layout — sách/giáo trình/journal đọc sai thứ tự cột
Bài viết này so sánh 5 tool PDF → Markdown được dùng nhiều nhất năm 2026, test thực tế trên tài liệu tiếng Việt, đánh giá theo 8 tiêu chí cụ thể. Đọc xong bạn sẽ biết tool nào hợp với use case của mình.
8 Tiêu Chí Đánh Giá Tool PDF → Markdown
Trước khi vào bảng so sánh, hãy thống nhất 8 tiêu chí quan trọng:
- Tốc độ — thời gian xử lý 1 PDF 9 trang điển hình. Quan trọng nếu chạy batch hàng nghìn file.
- Giá entry-level — chi phí cho ~1000 trang/tháng (mức dùng vừa phải). Quan trọng cho team nhỏ và indie dev.
- Bảng giữ cấu trúc — tool có emit HTML
<table>hoặc giải pháp tương đương cho ô gộp không? Markdown pipe không support colspan/rowspan nên dễ vỡ. - Công thức LaTeX — công thức toán có giữ đúng dạng LaTeX không, hay bị flatten?
- Đọc PDF scan native (VLM) — tool có dùng vision model (Qwen2-VL, GPT-4V, Claude Vision) đọc trực tiếp pixel không, hay phụ thuộc OCR layer trung gian?
- Tách ảnh trong PDF — ảnh embed trong PDF có được tách ra file riêng kèm link relative trong Markdown không?
- JSON bbox cho RAG — có metadata bounding-box cho mỗi block không? Cần thiết để chunk theo block thay vì độ dài cố định.
- Tiếng Việt + dấu — độ chính xác trên dấu tiếng Việt với scan 300 DPI. Hầu hết tool phương Tây không tối ưu cho VN.
Sẵn sàng thử ngay?
Dùng công cụ miễn phí của BetaPDF — không cần đăng ký, không giới hạn.
PDF / Ảnh sang Markdown →Top 5 Tool PDF → Markdown 2026
1. BetaPDF (cloud, Việt Nam)
Pipeline MinerU 2.x + Qwen2-VL trên vLLM (GB10 GPU). 22-30s cho 9 trang. Output ZIP gồm .md + .json bbox + images/. Free 50 trang/file qua web, API Pro $9.99/mo (1000 trang). Tối ưu cho tài liệu tiếng Việt (giấy tờ hành chính, hợp đồng, giáo trình).
2. Marker (mã nguồn mở, GitHub)
Tool open-source nổi tiếng (~20k star). Vision-based với LayoutLMv3 + Tesseract. Chất lượng cao nhưng cần tự host trên GPU 8GB+. Tốc độ chậm hơn (~60-180s/9 trang trên GPU consumer). Markdown table dạng pipe nên ô gộp dễ vỡ.
3. Adobe PDF Extract API
Sản phẩm enterprise của Adobe. Chất lượng bảng + cấu trúc tốt cho PDF số (xuất từ Word). Yếu trên PDF scan vì không phải VLM gốc. Giá $14.99/mo entry. Không có LaTeX cho công thức.
4. CloudConvert
Dịch vụ all-in-one chuyển đổi đủ loại file. PDF→MD là tính năng phụ, dùng PyMuPDF text-mode. Tốc độ nhanh nhưng bảng vỡ, công thức mất. $8/mo cho 100 trang — đắt nếu volume lớn.
5. Landing AI ADE (Agentic Document Engine)
Sản phẩm AI mới của Andrew Ng. Dùng vision model proprietary, chất lượng ngang Marker nhưng nhanh hơn. $250/mo cho 5000 trang/tháng Team plan — đắt 25× BetaPDF. Setup developer-friendly với SDK + bbox JSON cho RAG.
Bảng So Sánh Chi Tiết (8 Tiêu Chí × 5 Tool)
| Tiêu chí | BetaPDF | Marker | Adobe Extract | CloudConvert | Landing AI ADE |
|---|---|---|---|---|---|
| Tốc độ (9 trang VN) | 22-30s | 60-180s | ~10s | ~20s | ~25s |
| Giá ≥1000 pg/mo | $9.99 | Free (tự host) | $14.99 | $8/100pg | $250 |
| Bảng HTML colspan/rowspan | ✅ | ❌ | ✅ | ❌ | ✅ |
| Công thức LaTeX gốc | ✅ | ✅ | ❌ | ❌ | ✅ |
| PDF scan đọc native (VLM) | ✅ | ❌ | ❌ | ❌ | ✅ |
| Tách ảnh trong PDF | ✅ | ❌ | ❌ | ❌ | ✅ |
| JSON bbox cho RAG | ✅ | ❌ | △ một phần | ❌ | ✅ |
| Dấu tiếng Việt 99%+ | ✅ 99.7% | △ ~95% | △ ~95% | △ ~93% | △ ~96% |
| Free UI web | ✅ 50pg/file | ❌ | ❌ | △ giới hạn | ❌ |
Bảng so sánh tính đến tháng 5/2026. Marker cần self-host trên GPU 8GB+ (RTX 3060 trở lên). CloudConvert gói $8 giới hạn 100 trang/tháng — đắt khi scale. Landing AI ADE Team plan $250/mo cho 5000 trang là rẻ cho enterprise nhưng đắt cho indie dev. Dấu tiếng Việt: hầu hết tool phương Tây không công bố con số riêng nhưng test thực tế trên 100 trang scan 300 DPI thường mất 3-7% dấu — BetaPDF đo riêng cho VN nên có lợi thế rõ.
Chọn Tool Nào Cho Use Case Của Bạn?
👉 Bạn là indie dev / startup nhỏ, cần API rẻ cho RAG
→ Chọn BetaPDF. $9.99/mo cho 1000 trang là rẻ nhất trong nhóm có VLM + bbox JSON. Setup 3 dòng curl, trả về Landing-AI-shape JSON sẵn cho LangChain/LlamaIndex.
👉 Bạn xử lý tài liệu tiếng Việt (hợp đồng, giấy tờ scan, sách giáo khoa)
→ Chọn BetaPDF. Dấu tiếng Việt 99.7% trên scan là không tool nào khác bằng được. Pipeline được tune riêng cho VN.
👉 Bạn là researcher, có GPU 8GB+ và muốn full control
→ Chọn Marker. Free, open source, chạy local nên dữ liệu nhạy cảm không lên cloud. Chậm hơn nhưng customize được prompt VLM.
👉 Bạn là enterprise có budget, cần SLA + uptime đảm bảo
→ Chọn Landing AI ADE. $250/mo có team support, SDK chính thức, audit log. Phù hợp khi compliance quan trọng hơn chi phí.
👉 Bạn chỉ cần chuyển 1-2 file PDF số đơn giản, không cần API
→ Chọn BetaPDF web UI. Vào betapdf.com/cong-cu/pdf-sang-markdown, kéo thả file, tải ZIP. Không cần đăng ký, không quảng cáo.
👉 Bạn cần workflow tự động hoá (Zapier, n8n, Make.com)
→ Chọn Adobe Extract. Hỗ trợ chính thức trong các nền tảng no-code. Setup OAuth phức tạp hơn nhưng integration sẵn.
Hướng Dẫn Dùng BetaPDF Cho Tài Liệu Tiếng Việt (3 Phút)
Free tier — Web UI, 50 trang/file
- Mở betapdf.com/cong-cu/pdf-sang-markdown
- Kéo thả PDF (hoặc ảnh JPG/PNG/WEBP) vào vùng upload
- Chọn ngôn ngữ "Tiếng Việt" hoặc "Tự động"
- Bấm Chuyển đổi, đợi 22-30 giây cho file 9 trang
- Tải ZIP về máy, mở
.mdbằng VS Code / Obsidian / paste vào ChatGPT
Pro tier — API $9.99/mo, 1000 trang/tháng
curl -X POST https://betapdf.com/api/v1/parse \
-H "Authorization: Bearer beta_live_xxx" \
-F "file=@hop_dong.pdf"Trả về JSON: { markdown, chunks: [{type, markdown, grounding: {box_normalized, page}}], metadata }. Drop-in cho RAG pipeline.
Tip dùng cho RAG production
- Chunk theo
chunks[].type === 'table'để giữ context bảng nguyên - Dùng
grounding.box_normalizedđể re-overlay highlight trên PDF gốc - Filter
chunks[].type === 'paragraph'kèmgrounding.pageđể chunk theo trang
Tóm Lại: Nên Chọn Tool Nào?
Sau khi so sánh 5 tool PDF → Markdown phổ biến năm 2026, kết luận ngắn gọn:
- 🏆 BetaPDF — best value cho indie/team nhỏ cần VLM + bbox JSON + tiếng Việt. $9.99/mo rẻ 25× Landing AI với chất lượng tương đương trên tiếng Việt.
- 🥈 Landing AI ADE — best cho enterprise có budget, cần SDK + SLA.
- 🥉 Marker — best cho researcher có GPU, muốn self-host + privacy tuyệt đối.
- 📃 Adobe Extract — dùng cho workflow no-code (Zapier/n8n) cần integration sẵn.
- ❌ CloudConvert — chỉ dùng cho file PDF số đơn giản, không khuyến nghị cho RAG production.
Còn nếu bạn không cần API và chỉ muốn thử nhanh — vào betapdf.com/cong-cu/pdf-sang-markdown, kéo thả file PDF hoặc ảnh chụp tài liệu, tải kết quả ZIP về. Miễn phí 100%, không cần đăng ký, file tự xoá sau 6h. Đặc biệt nếu file của bạn là tiếng Việt thì BetaPDF cho kết quả tốt nhất trong nhóm.
Xem thêm: hướng dẫn chi tiết PDF sang Markdown · OCR PDF tiếng Việt · API reference