PDF / Ảnh sang Markdown AI Premium

Trích xuất Markdown + JSON bbox từ PDF hoặc ảnh trong 22-30 giây cho ChatGPT, Claude, RAG, embedding. AI Premium giữ heading, bảng, công thức, dấu tiếng Việt. PDF ≤50 trang, ảnh jpg/png/webp ≤20MB.

Kéo thả file vào đây

hoặc nhấn để chọn file

Tải lên 1 PDF (≤50 trang) hoặc ảnh chụp tài liệu (≤20MB)

Tùy chọn

File ZIP có những gì?

BetaPDF trả về 2 file để bạn dùng linh hoạt cho mọi AI workflow:

  • filename.mdMarkdown thuần — copy thẳng vào ChatGPT / Claude, hoặc nhúng vào tài liệu của bạn.
  • filename_content_list.jsonJSON danh sách block + bbox — dùng cho RAG, embedding, OCR pipeline tự động.

Cách pdf / ảnh sang markdown trong 3 bước

1

Tải lên file PDF (tối đa 50 trang)

2

Chọn ngôn ngữ và tùy chọn công thức / bảng

3

Tải về ZIP gồm .md + .json để dùng với AI

Vì sao BetaPDF PDF → Markdown khác biệt

Hầu hết tool PDF→Markdown online dùng text-layer extraction đơn thuần: bốc text-layer của PDF rồi dán vào markdown, vỡ ngay khi PDF scan, có bảng phức tạp, hoặc multi-column. BetaPDF dùng cách khác — đọc PDF bằng mô hình vision Qwen2-VL chạy trên vLLM (GB10 GPU), nhìn từng trang như con người và tự reconstruct cấu trúc. Kết quả: bảng giữ nguyên HTML <table> (kèm colspan/rowspan), công thức toán xuất LaTeX gốc, ảnh trong PDF được tách ra file riêng kèm theo, PDF scan đọc native không cần OCR layer trung gian. 22-30 giây cho file 9 trang tiếng Việt — nhanh gấp 15× các solution VLM mã nguồn mở khác.

🧾

Bảng HTML — không vỡ cấu trúc

Output thẻ <table>/<tr>/<td> đầy đủ, hỗ trợ merge cell. Render đẹp trong Obsidian, GitHub, ChatGPT, Notion — không bị tool markdown-pipe làm dính chữ.

🧮

Công thức LaTeX gốc

Trích xuất \\frac, \\sum, \\int, matrices, etc. Paste thẳng vào MathJax/KaTeX viewer, ChatGPT hiểu liền — không bị flatten thành ký tự lạ.

📸

PDF scan đọc bằng vision

Qwen2-VL nhìn trực tiếp pixel của PDF/ảnh chụp. Không cần text-layer, không dùng Tesseract OCR — 99.7% chính xác dấu tiếng Việt trên scan 300 DPI.

🧱

JSON bbox cho RAG pipeline

ZIP kèm file *_content_list.json: từng block có bbox (0-1000 normalized) + type (paragraph/table/figure/formula). Output shape giống Landing AI ADE — drop-in cho mọi RAG/embedding pipeline.

🔧

Pipeline: MinerU 2.x → Qwen2-VL vision model → vLLM 0.16 serving trên GB10 (sm_121). Backend vlm-http-client, batch native, ~15× nhanh hơn vlm-auto-engine (transformers). Đầu vào: PDF tới 100MB (sync ≤10 trang, async ≤50 trang) hoặc ảnh jpg/png/webp tới 20MB. Đầu ra: ZIP {.md + _content_list.json + images/}.

BetaPDF vs Marker / Adobe / CloudConvert / Landing AI ADE

So sánh nhanh các điểm hay được hỏi khi chọn tool PDF → Markdown cho AI workflow.

Tiêu chíBetaPDFMarker (OSS)Adobe ExtractCloudConvertLanding AI ADE
Tốc độ (9 trang VN)22-30s60-180s~10s~20s~25s
Giá entry (≥1000 trang/tháng)$9.99/moMiễn phí (tự host)$14.99/mo$8/mo (100pg)$250/mo
Bảng HTML giữ cấu trúc
Công thức LaTeX
PDF scan đọc native (VLM)
Ảnh trong PDF tách ra file
JSON bbox cho RAG△ partial
Dấu tiếng Việt 99.7%
Web UI miễn phí ≤50 trang

Số liệu so sánh ngày 2026-05. Marker (github.com/VikParuchuri/marker) cần GPU 8GB+ tự host. CloudConvert giới hạn 100 trang/tháng gói $8. Landing AI ADE giá Team plan $250/mo cho 5,000 trang. Dấu tiếng Việt: đa số tool phương Tây không đo riêng nhưng thực tế hay mất dấu trên scan; con số 99.7% của BetaPDF đo trên PDF scan 300 DPI 100 trang.

🎯

Phù hợp cho: nạp hợp đồng/paper/giáo án vào ChatGPT, Claude, xây kho tri thức RAG, pipeline OCR tự động cho tài liệu tiếng Việt. Nếu file dài hơn 50 trang, hãy dùng Tách PDF trước.

📖 Mới: Cách Chuyển PDF Sang Markdown Cho ChatGPT, Claude & RAG — hướng dẫn chi tiết từng bước.

💡

Ví dụ sử dụng

Hợp đồng scan → ChatGPT

InputPDF scan hợp đồng tiếng Việt 8 trang (Vietcombank biên bản bàn giao)
Tùy chọn
language: viformula_enable: falsetable_enable: true
OutputMarkdown giữ heading + <table> bảng cước với 4 cột giá trị
🎯Hỏi 'số tài khoản trong hợp đồng là gì' với ChatGPT — trả lời chính xác

Paper toán → MathJax

InputPDF báo cáo nghiên cứu 30 trang có công thức tích phân + matrix
Tùy chọn
language: enformula_enable: truetable_enable: true
OutputMarkdown với LaTeX \frac{}, \sum, \int trong code block
🎯Paste vào Obsidian (MathJax) — công thức render đẹp luôn

Câu hỏi thường gặp

PDF sang Markdown trả về định dạng cấu trúc (heading, list, bảng, công thức LaTeX) sẵn sàng cho LLM, RAG, embedding. PDF sang Word phù hợp khi bạn cần chỉnh sửa lại nội dung trong Microsoft Word.

Có, và đây là điểm khác biệt: BetaPDF dùng mô hình vision Qwen2-VL chạy trên vLLM, đọc trực tiếp pixel của PDF như con người nhìn — không phụ thuộc lớp text-layer. PDF scan, ảnh chụp giấy tờ, sách quét đều xử lý native. Bạn cũng có thể upload thẳng file jpg/png/webp (không cần convert ra PDF trước).

Có. Output trả về thẻ <table> HTML với <tr>/<td> đầy đủ, bao gồm cả merge cell (colspan/rowspan). Markdown standard không support merge cell, nên các tool dùng định dạng `| col1 | col2 |` thường vỡ chữ ở bảng phức tạp — BetaPDF tránh được bằng cách emit HTML thay thế, vẫn render đẹp trong mọi Markdown viewer hỗ trợ HTML inline (Obsidian, GitHub, ChatGPT).

Công cụ liên quan