← Tất cả công cụ

Chuyển Ảnh Thành Văn Bản (OCR) Online Miễn Phí

Trích xuất chữ từ ảnh JPEG, PNG, WebP bằng công nghệ Tesseract OCR. Hỗ trợ tiếng Việt và tiếng Anh. 100% trên trình duyệt — ảnh không rời khỏi thiết bị của bạn.

Tiếng Việt có dấuTiếng AnhKhông uploadTesseract.jsText chỉnh sửa được
📝

Kéo thả ảnh chứa văn bản vào đây hoặc

JPEG, PNG, WebP — tối đa 20 MB

Tại sao dùng ImgTools?

🔒
100% Riêng tư

Ảnh chỉ được xử lý trên trình duyệt. Tesseract WASM chạy local — không gửi lên bất kỳ server OCR nào như Google Vision hay AWS Textract.

🌏
Hỗ trợ tiếng Việt

Nhận diện chữ Việt có dấu với độ chính xác 85-95% cho ảnh chữ in rõ nét. Hỗ trợ nhận diện đồng thời cả Việt và Anh.

✏️
Text chỉnh sửa

Kết quả hiển thị trong ô text, bạn có thể sửa lỗi nhận diện trước khi copy hoặc tải file .txt về máy.

Image to Text là gì?

Image to Text (hay OCR — Optical Character Recognition, tức Nhận dạng Ký tự Quang học) là kỹ thuật máy tính nhận diện chữ viết trong ảnh. Thay vì gõ lại toàn bộ nội dung văn bản trong ảnh chụp, OCR sẽ phân tích từng pixel, nhận ra đâu là ký tự, rồi xuất ra text có thể chỉnh sửa — tiết kiệm hàng giờ nhập liệu thủ công cho các tác vụ như số hoá sổ sách, chép tài liệu cũ, hay đơn giản là copy text từ một ảnh chụp màn hình không thể highlight.

Công cụ OCR của ImgTools dùng Tesseract.js — phiên bản JavaScript/WebAssembly của engine Tesseract do Google phát triển, đã được đào tạo trên hàng triệu mẫu chữ qua nhiều thập kỷ. Điểm khác biệt lớn nhất: toàn bộ quá trình nhận diện chạy ngay trong trình duyệt qua WebAssembly, ảnh gốc và text kết quả không bao giờ rời khỏi máy bạn. Đây là điểm mà các dịch vụ OCR cloud như Google Vision API, AWS Textract, Microsoft Azure Computer Vision không thể đảm bảo — vì bản chất chúng yêu cầu upload ảnh lên server của nhà cung cấp.

Thích hợp cho các tác vụ như chụp tài liệu in để convert sang Word, chép nội dung slide PowerPoint thuyết trình, số hoá hoá đơn siêu thị, nhận diện biển số xe, trích xuất công thức từ sách nấu ăn, hay sao chép đoạn văn bản trong screenshot mạng xã hội mà không cần gõ lại từng chữ.

  • Hỗ trợ hai ngôn ngữ phổ biến: Tiếng Việt (có dấu) và Tiếng Anh — có thể bật cả hai cùng lúc cho tài liệu song ngữ
  • Độ chính xác 85-95% với chữ in rõ nét, font phổ biến, nền sạch; chữ viết tay và ảnh mờ cho kết quả thấp hơn
  • Kết quả xuất hiện trong textarea có thể chỉnh sửa trực tiếp — không cần mở thêm editor bên ngoài
  • Xuất kết quả dạng file .txt UTF-8 để mở trong Notepad, Word, Google Docs hay paste vào bất kỳ đâu
  • Không giới hạn số lần dùng, không watermark, không yêu cầu đăng ký tài khoản hay đăng nhập
  • Lần đầu tải dữ liệu ngôn ngữ mất ~5-10 giây (khoảng 10 MB cho tiếng Việt, 2 MB cho tiếng Anh); các lần sau được trình duyệt cache nên chạy nhanh hơn nhiều
  • Hoạt động trên mọi trình duyệt hiện đại: Chrome, Firefox, Safari, Edge — cả PC và smartphone, không cần cài app

Hướng dẫn sử dụng

  1. 1

    Kéo thả hoặc chọn ảnh chứa văn bản cần trích xuất (JPEG/PNG/WebP).

  2. 2

    Chọn ngôn ngữ OCR: Tiếng Việt, Tiếng Anh, hoặc cả hai.

  3. 3

    Nhấn Nhận diện văn bản — đợi vài giây để Tesseract xử lý.

  4. 4

    Copy nội dung hoặc tải file .txt về máy.

Khi nào cần dùng OCR?

Chép tài liệu giấy

Chụp trang sách giáo khoa, hợp đồng, giấy tờ hành chính — OCR trích xuất text để dán vào Word/Google Docs, giúp dễ chỉnh sửa, tìm kiếm trong văn bản, hoặc dịch sang ngôn ngữ khác.

Slide PowerPoint

Ngồi họp không kịp chép bài, chỉ cần chụp slide rồi dùng OCR chép lại đầy đủ nội dung để làm biên bản họp hoặc tài liệu ôn tập.

Screenshot website

Trang web chặn phím Ctrl+C hoặc là ảnh chụp từ app không có chọn chữ? OCR xử lý nhanh, lấy text trực tiếp từ pixel ảnh.

Hoá đơn & chứng từ

Nhập số tiền, mã hoá đơn, ngày tháng từ hoá đơn điện nước chụp ảnh vào Excel — không cần gõ từng con số, giảm sai sót nhập liệu.

Biển số & ID

Trích xuất số CMND/CCCD, số hộ chiếu, biển số xe từ ảnh chụp — hữu ích cho công việc hành chính, kho vận, an ninh.

Truyện tranh & manga

Dịch nhanh truyện tranh nước ngoài bằng cách OCR từng khung thoại, rồi paste vào Google Translate hoặc DeepL.

Công nghệ đằng sau

Tesseract là engine OCR mã nguồn mở được HP phát triển từ năm 1985, sau đó Google mua lại và mở mã nguồn vào năm 2006. Phiên bản 4 trở đi dùng mạng neural LSTM (Long Short-Term Memory) để nhận diện chữ theo dòng thay vì từng ký tự riêng lẻ — kết quả chính xác hơn nhiều với chữ viết liền và các ngôn ngữ có dấu như tiếng Việt. Mỗi ngôn ngữ có một file .traineddata riêng chứa các trọng số (weights) của mô hình đã train trước.

Tesseract.js là phiên bản chạy trên trình duyệt, biên dịch từ mã C++ gốc sang WebAssembly. Khi bạn bấm Nhận diện, trình duyệt tải file .traineddata từ CDN jsdelivr (lần đầu duy nhất), khởi tạo một Web Worker chạy WASM trong luồng riêng để không block UI, rồi pipe ảnh qua pipeline: tiền xử lý (grayscale, threshold), phân đoạn dòng/từ, và cuối cùng nhận diện ký tự bằng LSTM. Toàn bộ chạy trong tab của bạn — không có request nào chứa nội dung ảnh đi ra khỏi máy, bạn có thể tự kiểm chứng qua DevTools → Network.

Độ chính xác phụ thuộc nhiều vào chất lượng ảnh đầu vào. Với chữ đen trên nền trắng, font phổ biến, kích thước ký tự trên 30 pixel, không bị mờ/nghiêng — Tesseract đạt 90-95% cho tiếng Anh và 85-92% cho tiếng Việt. Với ảnh nghiêng, bị che, độ phân giải thấp, nền nhiễu — độ chính xác có thể giảm xuống 60-70%. Để tối ưu, chúng tôi khuyên bạn chụp lại ảnh với đủ sáng, đặt máy vuông góc với tài liệu, và nếu cần, dùng công cụ Xoay ảnh của ImgTools để chỉnh nghiêng trước khi OCR. Với chữ viết tay thông thường, hiện Tesseract không hỗ trợ tốt — chỉ nhận được chữ in đều hoặc chữ in hoa viết rất ngay ngắn.

Câu hỏi thường gặp về OCR

OCR có chính xác 100% không?

Không có công cụ OCR nào đạt 100% — kể cả Google Vision hay AWS Textract. Tesseract của chúng tôi đạt 85-95% với ảnh chữ in rõ nét. Ảnh mờ, chữ nghiêng, font lạ, nền nhiễu đều làm giảm độ chính xác. Đó là lý do kết quả hiển thị trong ô textarea có thể chỉnh sửa — bạn nên đọc lại và sửa các ký tự sai trước khi dùng cho công việc quan trọng.

Có nhận được chữ viết tay không?

Tesseract chỉ xử lý tốt chữ in — chữ viết tay thông thường (cursive, viết liền) hầu như không nhận được. Nếu chữ viết tay rất gọn, in hoa rõ ràng (như chữ trong bản vẽ kỹ thuật), bạn có thể nhận được khoảng 40-60% ký tự đúng. Với chữ viết tay, các giải pháp AI mới hơn như Google Cloud Vision hoặc Microsoft Azure mới xử lý tốt hơn, nhưng đánh đổi bằng việc phải upload ảnh lên server.

Tại sao lần đầu chạy lâu?

Lần đầu, trình duyệt phải tải file dữ liệu ngôn ngữ (.traineddata) từ CDN: tiếng Việt khoảng 10 MB, tiếng Anh khoảng 2 MB. Quá trình tải + khởi tạo Web Worker mất 5-10 giây tuỳ tốc độ mạng. Sau lần đầu, dữ liệu được cache trong trình duyệt nên các ảnh sau được xử lý trực tiếp, thường dưới 3-5 giây cho một ảnh cỡ A4.

Ảnh của tôi có bị upload lên server không?

Không. Tesseract.js chạy 100% qua WebAssembly trong tab trình duyệt của bạn. Duy nhất một request mạng xảy ra là tải file .traineddata từ CDN công khai — file này giống nhau với mọi người dùng, không chứa thông tin cá nhân hay ảnh của bạn. Bạn có thể tự kiểm chứng bằng cách mở Chrome DevTools → Network tab rồi chạy OCR, sẽ không thấy request nào chứa ảnh.

Ảnh tối đa bao nhiêu MB?

Chúng tôi giới hạn 20 MB mỗi ảnh. Với ảnh quá lớn, trình duyệt có thể bị chậm hoặc crash do phải xử lý quá nhiều pixel trong bộ nhớ. Nếu ảnh gốc vượt 20 MB, hãy dùng công cụ Nén ảnh của ImgTools để giảm dung lượng trước khi OCR — chất lượng text nhận diện không bị ảnh hưởng nhiều nếu nén ở mức 80%.

Có nhận được tiếng Nhật, Hàn, Trung, Pháp, Đức không?

Phiên bản hiện tại chỉ hỗ trợ tiếng Việt và tiếng Anh. Tesseract có thể hỗ trợ 100+ ngôn ngữ (bao gồm Nhật/Hàn/Trung/Nga/Pháp/Đức) — chúng tôi sẽ mở rộng dần dựa trên nhu cầu thực tế. Nếu bạn cần ngôn ngữ khác, hãy liên hệ qua phanmemtonghop.com để yêu cầu.

Text có giữ nguyên dấu xuống dòng và bố cục không?

Có, Tesseract cố gắng giữ lại cấu trúc dòng và đoạn văn trong kết quả. Tuy nhiên, nếu ảnh bị nghiêng hoặc chữ cong (ví dụ chụp sách dày, trang cong), cấu trúc có thể bị lệch — lúc đó bạn cần chỉnh tay trong ô textarea. Với tài liệu nhiều cột (như báo giấy), Tesseract đọc từng cột tuần tự, có thể cần sắp xếp lại sau khi OCR.

Tôi có thể dùng cho mục đích thương mại không?

Có. ImgTools hoàn toàn miễn phí cho cả cá nhân và doanh nghiệp, không giới hạn số ảnh, không watermark, không yêu cầu attribution. Tesseract.js được phát hành dưới giấy phép Apache 2.0 — bạn có thể tự host nếu cần. Tuy nhiên chúng tôi khuyên dùng cho các tác vụ nhẹ (dưới 1000 ảnh/ngày); với khối lượng lớn hơn, hãy cân nhắc tự deploy Tesseract server-side để tận dụng đa luồng CPU.