Cách trích xuất văn bản và hình ảnh dễ dàng từ tệp MS Office
Chúng tôi có thể bắt gặp nhu cầu trích xuất hình ảnh hoặc văn bản từ tệp MS Word hoặc MS Powerpoint. Thông thường, điều này có thể bao gồm sao chép và dán thủ công, mỗi lần một trang và với các tệp lớn, việc này sẽ mất khá nhiều thời gian.
Vâng, chúng tôi có một mẹo đơn giản để giúp bạn trích xuất hình ảnh và văn bản từ các tập tin định dạng mới tức là DOCX, PPTX, XLSX trong khi với các tệp có định dạng cũ hơn là DOC, PPT, XLS, tất cả những gì bạn cần là một phần mềm miễn phí để giúp bạn nhanh chóng và dễ dàng trích xuất hình ảnh.
Chú thích: Với mục đích thể hiện bài đăng này, chúng tôi sẽ chỉ sử dụng tệp MS Word. Quá trình này giống nhau đối với các tệp MS Powerpoint và MS Excel.
Đây là những gì bài viết này bao gồm:
- Cách trích xuất hình ảnh & văn bản từ các tệp DOCX, PPTX, XLXS
- Cách trích xuất hình ảnh từ một tệp DOC, PPT hoặc XLS
- Cách trích xuất hình ảnh từ nhiều tệp DOC, PPT hoặc XLS
- Cách trích xuất hình ảnh với “Lưu dưới dạng trang web” phương pháp
- Cách trích xuất văn bản thuần thay vì XML
Cách trích xuất hình ảnh và văn bản từ các tệp DOCX, PPTX, XLXS
Trước khi làm theo các bước, hãy mở thư mục chứa các tệp của bạn. nhấp chuột Sắp xếp> Tùy chọn thư mục và tìm kiếm> Xem và bỏ chọn Ẩn phần tên mở rộng đối với những loại file mà hệ thống đã biết. Bây giờ, bạn có thể thấy phần mở rộng tập tin với mỗi tên tệp.
-
Xác định vị trí và chọn tệp bạn muốn trích xuất hình ảnh và văn bản từ (lưu ý: tốt hơn là tạo một bản sao của tệp đã nói). Trong ví dụ này, tệp mục tiêu của chúng tôi được đặt tên File.docx mẫu.
-
nhấn F2 đổi tên tập tin và thay thế tên mở rộng bằng .khóa kéo.
-
Một cảnh báo sẽ được hiển thị để xác nhận thay đổi phần mở rộng tập tin. Nhấp chuột Vâng.
-
Click chuột phải vào tập tin ZIP và bấm vào Giải nén tập tin.
-
Xác định vị trí và mở thư mục chứa dữ liệu được trích xuất và sau đó mở từ.
-
Trong đó bạn sẽ thấy một vài thư mục và tệp XML. bên trong phương tiện truyền thông thư mục bạn sẽ tìm thấy những hình ảnh được trích xuất. Đối với văn bản rút gọn, mở tài liệu tệp bằng notepad hoặc XML Notepad.
Đây là những gì bạn sẽ tìm thấy trong phương tiện truyền thông thư mục.
Cách trích xuất hình ảnh từ một tệp DOC, PPT hoặc XLS
Nếu bạn muốn trích xuất hình ảnh từ các tệp MS office với định dạng cũ hơn, phương pháp trên sẽ không hoạt động với hình ảnh. Bạn cần một công cụ miễn phí có tên Office Image Extraction Wizard cho mục đích này. Công cụ này hoạt động với các tệp MS Office từ năm 2012 và nó hoạt động với một hoặc nhiều tệp MS Office trong một lần.
-
Tải xuống và cài đặt, dựng lên Thuật sĩ trích xuất hình ảnh văn phòng.
-
Chọn tài liệu bạn muốn trích xuất hình ảnh từ (ví dụ này, chúng tôi đang thực hiện nó vào một thư mục tôi đặt tên Ch1.doc) và chọn thư mục đầu ra. Bạn có thể chọn để có một thư mục được tạo để chứa tất cả các hình ảnh đầu ra của bạn bằng cách đánh dấu tùy chọn Tạo một thư mục ở đây. Khi bạn đã hoàn tất, nhấp vào Kế tiếp.
-
Nhấp chuột Khởi đầu để bắt đầu quá trình.
-
Khi quá trình trích xuất hình ảnh kết thúc, nhấp vào Nhấn vào đây để mở thư mục đích và nó sẽ mở thư mục đầu ra.
-
Như bạn có thể thấy bên dưới, chương trình đã tạo ra một Ch1 thư mục.
-
Bên trong thư mục là những hình ảnh được trích xuất.
Cách trích xuất hình ảnh từ nhiều tệp DOC, PPT hoặc XLS
-
Để trích xuất hình ảnh từ nhiều tệp ở định dạng DOC, PPT hoặc XLS, đánh dấu vào Chế độ hàng loạt tùy chọn tìm thấy ở phía dưới bên trái.
-
Bấm vào Thêm các tập tin và sau đó lựa chọn các tập tin bạn muốn trích xuất hình ảnh từ. Giữ Ctrl nút để chọn nhiều tập tin trong một lần. Sau khi chọn các tập tin, bấm vào Kế tiếp.
-
Nhấp chuột Khởi đầu.
-
Khi quá trình hoàn tất, xác định vị trí và mở thư mục đầu ra. Ở đây, bạn sẽ thấy hai thư mục với tên tập tin gốc. Mở những thư mục này để xem hình ảnh được trích xuất từ các tệp MS Office gốc của chúng.
Cách trích xuất hình ảnh bằng phương pháp "Lưu dưới dạng trang web"
Có một phương pháp khác sẽ làm việc với cả hai mới hơn và lớn hơn Tập tin MS Office.
-
Mở tệp DOCX hoặc XLSX và nhấp vào Tệp> Lưu dưới dạng> Máy tính> Trình duyệt và lưu tập tin dưới dạng Trang web.
-
Định vị thư mục có tên tệp bạn đã lưu Trang Web. Tại đây, bạn sẽ thấy tất cả các hình ảnh được trích xuất từ tệp.
Cách trích xuất văn bản thay vì XML
-
Mở tệp DOCX và nhấp vào Tệp> Lưu dưới dạng> Máy tính> Trình duyệt. Chọn lưu tệp dưới dạng Văn bản thô (đối với các tệp XLSX, hãy lưu nó dưới dạng Văn bản (Phân cách bằng tab)).
-
Định vị và mở tệp văn bản với tên bạn đã sử dụng để lưu nó. Tệp văn bản này sẽ chỉ chứa văn bản từ tệp gốc của bạn mà không có bất kỳ định dạng nào.
Nếu bạn biết bất kỳ phương pháp hoặc công cụ nào khác để trích xuất hình ảnh từ các tệp MS Office, vui lòng đề cập trong phần bình luận phần.