Làm cách nào tôi có thể sao chép văn bản từ PDF trong khi bảo quản định dạng?
PDF, định dạng tài liệu phổ biến, rất tốt để chia sẻ tài liệu trong khi vẫn giữ phông chữ, hình ảnh và bố cục chung trên các nền tảng. Tuy nhiên, có một cách dễ dàng để giữ nguyên định dạng đó khi sao chép và dán văn bản ra khỏi tài liệu?
Phiên hỏi và trả lời hôm nay đến với chúng tôi nhờ sự hỗ trợ của SuperUser - một phân ngành của Stack Exchange, một nhóm các trang web Hỏi & Đáp do cộng đồng điều khiển.
Câu hỏi
Trình đọc SuperUser Colen đang tìm cách trích xuất văn bản từ các tệp PDF trong khi vẫn giữ nguyên định dạng:
Khi tôi sao chép văn bản từ tệp PDF và vào trình chỉnh sửa văn bản, nó sẽ bị xử lý theo nhiều cách khác nhau. Định dạng như in đậm và in nghiêng bị mất; ngắt dòng mềm trong một đoạn văn bản được chuyển đổi thành ngắt dòng cứng; dấu gạch ngang để ngắt một từ trên hai dòng được giữ nguyên ngay cả khi chúng không nên; và dấu ngoặc đơn và dấu ngoặc kép được thay thế bằng? dấu hiệu.
Lý tưởng nhất là tôi muốn có thể sao chép văn bản từ PDF và định dạng được chuyển đổi thành mã HTML, dấu ngoặc kép thông minh, được chuyển đổi thành hình chữ nhật và 'và ngắt dòng được thực hiện đúng cách. Có cách nào để làm điều này?
Có cách nào nhanh chóng và dễ dàng để Colen (và phần còn lại của chúng tôi) có được văn bản lấy mà không phải hy sinh định dạng?
Câu trả lời
Người đóng góp cho SuperUser Frabjous đưa ra một giải pháp kết hợp với một liều thuốc thận trọng:
Đầu tiên, bạn phải hiểu PDF là gì. Các tệp PDF được thiết kế để bắt chước một trang in và chúng chỉ được thiết kế dưới dạng định dạng đầu ra, không phải là định dạng đầu vào. PDF về cơ bản là bản đồ chứa vị trí chính xác của các ký tự (từng chữ cái hoặc dấu chấm câu, v.v.) hoặc hình ảnh. Trong hầu hết các trường hợp, một tệp PDF thậm chí không lưu trữ thông tin về nơi một từ kết thúc và một từ khác bắt đầu, ít thứ hơn như nghỉ mềm so với ngắt cứng cho kết thúc đoạn.
(Một vài tệp PDF gần đây lưu trữ một số thông tin về nội dung này, nhưng đó là một công nghệ mới và bạn sẽ may mắn tìm thấy các tệp PDF như thế. Ngay cả khi bạn đã làm, trình xem PDF của bạn có thể không biết về nó.)
Dù sao, tùy thuộc vào phần mềm của bạn để triển khai một số loại trí thông minh nhân tạo, trực tiếp để trích xuất từ các vị trí của các ký tự riêng lẻ là gì, một đoạn văn, v.v. Các phần mềm khác nhau sẽ làm điều này tốt hơn các phần mềm khác và nó cũng sẽ phụ thuộc vào cách tạo ra PDF. Trong mọi trường hợp, bạn không bao giờ nên mong đợi kết quả hoàn hảo. Có PDF đầu ra không giống như có tài liệu nguồn. Tốt hơn nhiều để cố gắng để có được điều đó nếu bạn có thể.
Giải pháp chuẩn cho loại vấn đề của bạn là sử dụng Adobe Acrobat Professional (loại đắt tiền, không phải trình đọc miễn phí) để chuyển đổi PDF sang HTML. Ngay cả điều đó sẽ không có được kết quả hoàn hảo.
Có một phần mềm miễn phí có thể được sử dụng để trích xuất văn bản từ các tệp PDF với một số định dạng còn nguyên vẹn, nhưng một lần nữa, đừng mong đợi kết quả hoàn hảo. Xem, ví dụ, cỡ nòng (có thể chuyển đổi sang định dạng RTF), pdftohtml / pdfreflow hoặc trình xử lý văn bản AbiWord (với tất cả các plugin nhập / xuất được bật). Ngoài ra còn có một plugin nhập PDF cho OpenOffice.
Nhưng xin đừng mong đợi sự hoàn hảo với bất kỳ kết quả nào trong số này. Bạn đang đi ngược lại hạt gạo ở đây. PDF chỉ không có nghĩa là một định dạng đầu vào có thể chỉnh sửa.
Nếu bạn gặp khó khăn trong việc quyết định nên bắt đầu sử dụng công cụ nào, Calibre là một con dao tài liệu của Quân đội Thụy Sĩ. Bạn cũng có thể sử dụng nó để chuyển đổi các tệp PDF để sử dụng trên trình đọc ebook của mình và sắp xếp thư viện tài liệu / sách điện tử của bạn.
Có một cái gì đó để thêm vào lời giải thích? Tắt âm thanh trong các ý kiến. Bạn muốn đọc thêm câu trả lời từ những người dùng Stack Exchange am hiểu công nghệ khác? Kiểm tra chủ đề thảo luận đầy đủ ở đây.