Cách trích xuất và lưu hình ảnh từ tệp PDF trong Linux
Bạn có thể dễ dàng chuyển đổi các tệp PDF thành văn bản có thể chỉnh sửa trong Linux bằng công cụ dòng lệnh của pdftotext. Tuy nhiên, nếu có bất kỳ hình ảnh nào trong tệp PDF gốc, chúng không được trích xuất. Để trích xuất hình ảnh từ tệp PDF, bạn có thể sử dụng một công cụ dòng lệnh khác có tên là pdf pdfimages.
LƯU Ý: Khi chúng tôi nói nhập một nội dung nào đó trong bài viết này và có các trích dẫn xung quanh văn bản, KHÔNG gõ các trích dẫn, trừ khi chúng tôi chỉ định khác.
Công cụ trực tuyến pdf pdfimages là một phần của gói poppler-utils. Bạn có thể kiểm tra xem nó có được cài đặt trên hệ thống của bạn không và cài đặt nó nếu cần bằng các bước được mô tả trong bài viết này.
Để trích xuất hình ảnh từ tệp PDF bằng pdfimages, nhấn phím Ctrl + Alt + T, để mở cửa sổ Terminal. Gõ lệnh sau tại dấu nhắc.
pdfimages /home/lori/Document/SampleWithImages.pdf / home / lori / Documents / ExtractedImages / image
GHI CHÚ: Đối với tất cả các lệnh được hiển thị trong bài viết này, hãy thay thế đường dẫn đầu tiên trong lệnh và tên tệp PDF thành đường dẫn và tên tệp cho tệp PDF gốc của bạn. Đường dẫn thứ hai phải là đường dẫn đến thư mục gốc mà bạn muốn lưu các hình ảnh được trích xuất. Từ hình ảnh hình ảnh ở cuối con đường thứ hai đại diện cho bất cứ điều gì bạn muốn để mở đầu tên tệp của bạn với. Tên tệp của hình ảnh được đánh số tự động (000, 001, 002, 003, v.v.). Nếu bạn muốn thêm văn bản vào đầu mỗi hình ảnh, hãy nhập văn bản đó vào cuối đường dẫn thứ hai. Trong ví dụ của chúng tôi, mỗi tên tệp hình ảnh sẽ bắt đầu bằng hình ảnh hình ảnh, chẳng hạn như image-001.ppm, image-002.ppm, v.v. Một dấu gạch ngang được thêm vào giữa văn bản bạn chỉ định và số.
Định dạng hình ảnh mặc định là PPM (pixmap di động) cho hình ảnh không đơn sắc hoặc PBM (bitmap di động) cho hình ảnh đơn sắc. Các định dạng này được thiết kế để dễ dàng trao đổi giữa các nền tảng.
LƯU Ý: Bạn có thể nhận được hai tệp hình ảnh cho mỗi hình ảnh trong tệp PDF của mình. Hình ảnh thứ hai cho mỗi hình ảnh đều trống, vì vậy, bạn sẽ có thể biết hình ảnh nào chứa hình ảnh từ tệp bằng hình thu nhỏ trên tệp trong Trình quản lý tệp.
Để tạo tập tin hình ảnh .jpg, hãy thêm tùy chọn -jv vào lệnh, như hiển thị bên dưới.
pdfimages -j /home/lori/Document/SampleWithImages.pdf / home / lori / Documents / ExtractedImages / image
GHI CHÚ: Bạn cũng có thể thay đổi đầu ra mặc định thành PNG bằng cách sử dụng tùy chọn -Mng -tng hoặc TIFF bằng cách sử dụng tùy chọn.
Tệp hình ảnh chính cho mỗi hình ảnh được lưu dưới dạng tệp .jpg. Hình ảnh trống thứ hai vẫn là tệp .ppm hoặc .pbm.
Nếu bạn chỉ muốn chuyển đổi hình ảnh trên và sau một trang nhất định, hãy sử dụng tùy chọn Cấm -f với một số để chỉ ra trang đầu tiên cần chuyển đổi, như được hiển thị trong lệnh ví dụ bên dưới.
pdfimages -f 2 -j /home/lori/Document/SampleWithImages.pdf / home / lori / Documents / ExtractedImages / image
LƯU Ý: Chúng tôi đã kết hợp tùy chọn ăn -jiên với tùy chọn của -F-vì vậy chúng tôi sẽ nhận được hình ảnh .jpg và cũng làm như vậy với tùy chọn.
Để chuyển đổi tất cả các hình ảnh trước và trên một trang nhất định, hãy sử dụng tùy chọn B -NG (một chữ thường viết tắt LÊ, không phải là số 1).
pdfimages -l 1 -j /home/lori/Document/SampleWithImages.pdf / home / lori / Documents / ExtractedImages / image
LƯU Ý: Bạn có thể cùng nhau sử dụng các tùy chọn của -F-và -F-giơ để chuyển đổi hình ảnh trong một phạm vi trang cụ thể ở giữa tài liệu của bạn.
Nếu có một mật khẩu chủ sở hữu trên tệp PDF, hãy sử dụng tùy chọn -opw 'và mật khẩu trong các dấu ngoặc đơn, như hiển thị bên dưới. Nếu mật khẩu trên tệp PDF là mật khẩu người dùng, thay vào đó hãy sử dụng tùy chọn -Rwww.
LƯU Ý: Đảm bảo có các dấu ngoặc đơn xung quanh mật khẩu của bạn trong lệnh.
pdfimages -opw 'password' -j /home/lori/Document/SampleWithImages.pdf / home / lori / Documents / ExtractedImages / image
Để biết thêm thông tin về cách sử dụng lệnh pdfimages, hãy nhập vào pdf pdfimages tại dấu nhắc trong cửa sổ Terminal và nhấn vào Enter Enter. Việc sử dụng lệnh hiển thị với một danh sách các tùy chọn có sẵn để sử dụng trong lệnh.