Trang chủ » Tải phần mềm miễn phí » Trích xuất văn bản từ tệp PDF và hình ảnh

    Trích xuất văn bản từ tệp PDF và hình ảnh

    Có một tài liệu PDF mà bạn muốn trích xuất tất cả các văn bản ra khỏi? Còn các tệp hình ảnh của một tài liệu được quét mà bạn muốn chuyển đổi thành văn bản có thể chỉnh sửa thì sao? Đây là một số vấn đề phổ biến nhất tôi gặp ở nơi làm việc khi làm việc với các tệp.

    Trong bài viết này, tôi sẽ nói về một số cách khác nhau mà bạn có thể cố gắng trích xuất văn bản từ PDF hoặc từ hình ảnh. Kết quả trích xuất của bạn sẽ thay đổi tùy thuộc vào loại và chất lượng của văn bản trong PDF hoặc hình ảnh. Ngoài ra, kết quả của bạn sẽ thay đổi tùy thuộc vào công cụ bạn sử dụng, vì vậy tốt nhất bạn nên thử càng nhiều tùy chọn bên dưới càng tốt để có kết quả tốt nhất.

    Trích xuất văn bản từ hình ảnh hoặc PDF

    Cách đơn giản nhất và nhanh nhất để bắt đầu là thử dịch vụ trích xuất văn bản PDF trực tuyến. Chúng thường miễn phí và có thể cung cấp cho bạn chính xác những gì bạn đang tìm kiếm mà không phải cài đặt bất cứ thứ gì trên máy tính của bạn. Đây là hai cái mà tôi đã sử dụng với kết quả rất tốt đến xuất sắc:

    ExtractPDF

    ExtractPDF là một công cụ miễn phí để lấy hình ảnh, văn bản và phông chữ ra khỏi tệp PDF. Hạn chế duy nhất là kích thước tối đa cho tệp PDF là 10 MB. Đó là một chút nhỏ; Vì vậy, nếu bạn có một tệp lớn hơn, hãy thử một số phương pháp khác bên dưới. Chọn tệp của bạn và sau đó nhấp vào Gửi tập tin nút. Kết quả thường rất nhanh và bạn sẽ thấy bản xem trước của văn bản khi bạn nhấp vào tab Văn bản.

    Nó cũng là một lợi ích bổ sung tuyệt vời khi nó cũng trích xuất hình ảnh từ tệp PDF, chỉ trong trường hợp bạn cần những thứ đó! Nhìn chung, công cụ trực tuyến hoạt động rất tốt, nhưng tôi đã chạy vào một vài tài liệu PDF mang lại cho tôi đầu ra hài hước. Văn bản được trích xuất tốt, nhưng vì một số lý do, nó sẽ bị ngắt dòng sau mỗi từ! Không phải là một vấn đề lớn đối với một tệp PDF ngắn, nhưng chắc chắn là một vấn đề đối với các tệp có nhiều văn bản. Nếu điều đó xảy ra với bạn, hãy thử công cụ tiếp theo.

    OCR trực tuyến

    OCR trực tuyến thường có xu hướng hoạt động đối với các tài liệu không chuyển đổi đúng với ExtractPDF, vì vậy, nên thử cả hai dịch vụ để xem những dịch vụ nào cung cấp cho bạn đầu ra tốt hơn. OCR trực tuyến cũng có một số tính năng đẹp hơn có thể chứng minh tiện dụng cho bất kỳ ai có tệp PDF lớn chỉ cần chuyển đổi văn bản trên một vài trang thay vì toàn bộ tài liệu.

    Điều đầu tiên bạn muốn làm là tiếp tục và tạo một tài khoản miễn phí. Hơi khó chịu một chút, nhưng nếu bạn không tạo tài khoản miễn phí, nó sẽ chỉ chuyển đổi một phần PDF của bạn chứ không phải toàn bộ tài liệu. Ngoài ra, thay vì chỉ có thể tải lên chỉ một tài liệu 5 MB, bạn có thể tải lên tối đa 100 MB cho mỗi tệp bằng một tài khoản.

    Đầu tiên, chọn một ngôn ngữ và sau đó chọn loại định dạng đầu ra bạn muốn cho tệp được chuyển đổi. Bạn có một vài lựa chọn và bạn có thể chọn nhiều hơn một tùy chọn nếu muốn. Dưới Tài liệu nhân, bạn có thể chọn Số trang và sau đó chỉ chọn các trang mà bạn muốn chuyển đổi. Sau đó, bạn chọn tập tin và nhấp vào Đổi!

    Sau khi chuyển đổi, bạn sẽ được đưa đến phần Tài liệu (nếu bạn đã đăng nhập), nơi bạn có thể xem bạn còn bao nhiêu trang miễn phí và các liên kết để tải xuống các tệp đã chuyển đổi của bạn. Có vẻ như bạn chỉ có 25 trang miễn phí mỗi ngày, vì vậy nếu bạn cần nhiều hơn thế, bạn sẽ phải chờ một chút hoặc mua thêm trang..

    OCR trực tuyến đã làm một công việc tuyệt vời để chuyển đổi các tệp PDF của tôi vì nó có thể duy trì bố cục thực tế của văn bản. Trong thử nghiệm của mình, tôi đã lấy một tài liệu Word sử dụng đạn, các cỡ chữ khác nhau, v.v. và chuyển đổi nó thành PDF. Sau đó, tôi đã sử dụng OCR trực tuyến để chuyển đổi nó trở lại định dạng Word và nó giống khoảng 95% so với bản gốc. Điều đó khá ấn tượng đối với tôi.

    Ngoài ra, nếu bạn đang muốn chuyển đổi một hình ảnh thành văn bản, thì OCR trực tuyến có thể làm điều đó dễ dàng như trích xuất văn bản từ các tệp PDF.

    OCR trực tuyến miễn phí

    Vì đã nói về hình ảnh để nhắn tin OCR, hãy để tôi đề cập đến một trang web tốt khác hoạt động thực sự tốt trên hình ảnh. OCR trực tuyến miễn phí rất tốt và rất chính xác khi trích xuất văn bản từ hình ảnh thử nghiệm của tôi. Tôi đã chụp một vài bức ảnh từ iPhone của tôi từ các trang sách, sách nhỏ, v.v. và tôi rất ngạc nhiên về khả năng chuyển đổi văn bản tốt như thế nào.

    Chọn tệp của bạn và sau đó nhấp vào nút Tải lên. Trên màn hình tiếp theo, có một vài tùy chọn và xem trước hình ảnh. Bạn có thể cắt nó nếu bạn không muốn OCR toàn bộ. Sau đó chỉ cần nhấp vào nút OCR và văn bản đã chuyển đổi của bạn sẽ xuất hiện bên dưới phần xem trước hình ảnh. Nó cũng không có bất kỳ giới hạn nào, điều này thực sự tốt.

    Ngoài các dịch vụ trực tuyến, có hai trình chuyển đổi PDF miễn phí mà tôi muốn đề cập trong trường hợp bạn cần phần mềm chạy cục bộ trên máy tính để thực hiện chuyển đổi. Với các dịch vụ trực tuyến, bạn sẽ luôn cần kết nối Internet và điều đó có thể không khả thi đối với mọi người. Tuy nhiên, tôi nhận thấy rằng chất lượng chuyển đổi từ các chương trình phần mềm miễn phí kém hơn đáng kể so với các trang web.

    Trình trích xuất văn bản A-PDF

    A-PDF Text Extractor là phần mềm miễn phí thực hiện công việc trích xuất văn bản từ các tệp PDF khá tốt. Khi bạn tải xuống và cài đặt nó, nhấp vào nút Mở để chọn tệp PDF của bạn. Sau đó bấm Trích xuất văn bản để bắt đầu quá trình.

    Nó sẽ hỏi bạn một vị trí để lưu trữ tệp xuất văn bản và sau đó nó sẽ bắt đầu giải nén. Bạn cũng có thể nhấp vào Tùy chọn nút, cho phép bạn chỉ chọn một số trang nhất định để trích xuất và loại trích xuất. Tùy chọn thứ hai rất thú vị vì nó trích xuất văn bản theo các bố cục khác nhau và đáng để thử cả ba để xem cái nào mang lại cho bạn đầu ra tốt nhất.

    Thí điểm PDF2Text

    PDF2Text Pilot thực hiện công việc trích xuất văn bản ok. Nó không có bất kỳ lựa chọn nào; bạn chỉ cần thêm tập tin hoặc thư mục, chuyển đổi và hy vọng điều tốt nhất. Nó hoạt động tốt trên một số tệp PDF, nhưng đối với phần lớn trong số chúng, có rất nhiều vấn đề.

    Chỉ cần nhấp vào Thêm tệp và sau đó nhấp Đổi. Khi quá trình chuyển đổi hoàn tất, nhấp vào Duyệt để mở tệp. Số dặm của bạn sẽ thay đổi khi sử dụng chương trình này, vì vậy đừng mong đợi nhiều.

    Ngoài ra, điều đáng nói là nếu bạn ở trong môi trường công ty hoặc có thể có được một bản sao Adobe Acrobat từ công việc, thì bạn thực sự có thể nhận được kết quả tốt hơn nhiều. Acrobat rõ ràng không miễn phí, nhưng nó có các tùy chọn để chuyển đổi định dạng PDF sang Word, Excel và HTML. Nó cũng làm tốt nhất việc duy trì cấu trúc của tài liệu gốc và chuyển đổi văn bản phức tạp.