Trích xuất hình ảnh từ PDF

PDF được sử dụng rộng rãi để lưu trữ và chia sẻ nhiều loại tài liệu khác nhau, bao gồm báo cáo, bài thuyết trình và tài liệu quảng cáo. Tuy nhiên, khi trích xuất hình ảnh từ các tệp này, quá trình này có thể tốn thời gian và cồng kềnh. Cho dù bạn cần trích xuất hình ảnh để chỉnh sửa, phân tích thêm hay đưa vào các dự án của riêng mình, thì việc có một phương pháp đáng tin cậy và hiệu quả là rất quan trọng. Do đó, tận dụng các khả năng của SDK lập trình có thể hợp lý hóa quy trình trích xuất hình ảnh, tiết kiệm thời gian và công sức quý báu. Bây giờ trong bài viết này, chúng ta sẽ khám phá chi tiết về cách trích xuất hình ảnh từ tệp PDF bằng Python Cloud SDK và mở ra một cấp độ hoàn toàn mới về năng suất và sự tiện lợi.

SDK xử lý PDF trên đám mây

Khi nói đến việc trích xuất hình ảnh từ các tệp PDF bằng Python, Aspose.PDF Cloud API là một công cụ mạnh mẽ và đa năng. Với Aspose.PDF Cloud SDK for Python, bạn không chỉ có thể trích xuất hình ảnh từ PDF mà còn có thể thực hiện nhiều tác vụ khác như chuyển đổi PDF sang các định dạng khác nhau, thêm chú thích, hợp nhất hoặc chia tách tài liệu PDF, v.v. Hơn nữa, SDK cung cấp một bộ API toàn diện cho phép bạn thao tác các tệp PDF theo chương trình, giúp bạn tiết kiệm thời gian và công sức.

Bây giờ, để cài đặt SDK, vui lòng tải xuống từ kho lưu trữ PIP hoặc GitHub. Vì vậy, vui lòng thực hiện lệnh sau trên terminal/dấu nhắc lệnh để cài đặt phiên bản SDK mới nhất trên hệ thống.

 pip install asposepdfcloud

IDE PyCharm

Nếu bạn đang sử dụng PyCharm IDE, bạn có thể trực tiếp thêm SDK dưới dạng phần phụ thuộc vào dự án của mình.

Tệp ->Cài đặt ->Dự án ->Trình thông dịch Python ->asposepdfcloud

Cài đặt PyCharm

Hình ảnh 1:- Tùy chọn cài đặt PyCharm.

Gói Python Aspose.PDF

Hình ảnh 2: - Gói Python đám mây Aspose.PDF.

Một bước quan trọng khác là tạo một tài khoản miễn phí qua cloud dashboard bằng GitHub hoặc tài khoản Google. Hoặc, nhấp vào nút create a new account và cung cấp thông tin cần thiết và lấy Thông tin xác thực khách hàng được cá nhân hóa của bạn.

Thông tin xác thực của khách hàng

Hình ảnh 3:- Thông tin xác thực của khách hàng trên bảng điều khiển Cloud.

Trích xuất hình ảnh từ PDF trong Python

Vui lòng làm theo các bước dưới đây để trích xuất hình ảnh từ tài liệu PDF ở định dạng JPEG và lưu chúng vào thư mục trên bộ nhớ đám mây.

  • Đầu tiên, tạo một thể hiện của lớp ApiClient trong khi cung cấp Client ID và Client Secret làm đối số.
  • Thứ hai, tạo một thể hiện của lớp PdfApi lấy đối tượng ApiClient làm đối số.
  • Bây giờ, hãy gọi phương thức putimagesextractasjpeg(…) để lấy tên PDF đầu vào, số trang PDF tương ứng và tham số tùy chọn chỉ định thư mục đích để lưu hình ảnh đã trích xuất.
def extractImages():
    try:
        #Client credentials
        client_secret = "1c9379bb7d701c26cc87e741a29987bb"
        client_id = "bbf94a2c-6d7e-4020-b4d2-b9809741374e"

        #initialize PdfApi client instance using client credetials
        pdf_api_client = asposepdfcloud.api_client.ApiClient(client_secret, client_id)

        # tạo phiên bản PdfApi trong khi truyền PdfApiClient làm đối số
        pdf_api = PdfApi(pdf_api_client)

        #source image file
        input_file = 'URL2PDF.pdf'

        # Gọi API để trích xuất hình ảnh dưới dạng JPEG và lưu chúng vào thư mục ExtractedImages trong bộ nhớ đám mây
        response = pdf_api.put_images_extract_as_jpeg(name = input_file, page_number= 3, dest_folder = 'ExtractedImages')
        
        print(response)
        # in tin nhắn trong bảng điều khiển (tùy chọn)
        print('Images successfully extracted from PDF !')    
    except ApiException as e:
        print("Exception while calling PdfApi: {0}".format(e))
        print("Code:" + str(e.code))
        print("Message:" + e.message)

API cũng hỗ trợ hai tham số tùy chọn để chỉ định Chiều rộng và Chiều cao cho hình ảnh được trích xuất.

chú thích

Image 4:- Preview of extracted images.

Trong trường hợp bạn cần trích xuất hình ảnh ở các định dạng khác, bạn có thể cân nhắc sử dụng các API sau:

Tải xuống hình ảnh PDF bằng lệnh cURL

Trích xuất hình ảnh từ các tệp PDF cũng có thể thực hiện được bằng cách sử dụng Aspose.PDF Cloud API với các lệnh cURL. Bằng cách sử dụng các lệnh cURL, bạn có thể thực hiện các yêu cầu HTTP đến các điểm cuối API và trích xuất hình ảnh từ PDF một cách dễ dàng. Phương pháp này cung cấp tính linh hoạt và tiện lợi, vì bạn có thể tích hợp chức năng trích xuất hình ảnh trực tiếp vào các tập lệnh hoặc ứng dụng của mình. Hơn nữa, bạn cũng có được khả năng truy cập các API REST thông qua thiết bị đầu cuối dòng lệnh trên bất kỳ nền tảng nào, tức là Windows, Linux, macOS hoặc các hệ điều hành khác.

Trong phần này, chúng ta sẽ sử dụng lệnh cURL để trích xuất hình ảnh ở định dạng PNG và lưu đầu ra vào Cloud storage. Vì vậy, bước đầu tiên là tạo JSON Web Token (JWT) bằng cách thực hiện lệnh sau.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bbf94a2c-6d7e-4020-b4d2-b9809741374e&client_secret=1c9379bb7d701c26cc87e741a29987bb" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Bây giờ, vui lòng thực hiện lệnh sau để trích xuất hình ảnh chỉ từ trang thứ 3 của tài liệu PDF. Hình ảnh được trích xuất ở định dạng PNG.

curl -v -X PUT "https://api.aspose.cloud/v3.0/pdf/URL2PDF.pdf/pages/3/images/extract/png?width=0&height=0&destFolder=ExtractedImages" \
-H  "Accept: application/json" \
-H  "authorization: Bearer <JWT Token>" \
-d{}

Tệp PDF mẫu được sử dụng trong ví dụ trên có thể được tải xuống từ URL2PDF.pdf.

Phần kết luận

Tóm lại, trích xuất hình ảnh từ các tệp PDF là một khả năng có giá trị có thể đạt được bằng cách sử dụng cả Aspose.PDF Cloud SDK cho Python và lệnh cURL. Cho dù bạn thích sự tiện lợi và đơn giản của lập trình Python hay tính linh hoạt của lệnh cURL, Aspose.PDF Cloud đều cung cấp một API mạnh mẽ để hoàn thành nhiệm vụ này. Bằng cách tận dụng sức mạnh của đám mây, bạn có thể trích xuất hình ảnh từ các tài liệu PDF một cách dễ dàng, nâng cao quy trình làm việc của mình. Tuy nhiên, với Aspose.PDF Cloud, bạn có thể linh hoạt lựa chọn phương pháp phù hợp nhất với yêu cầu của mình và tích hợp liền mạch chức năng trích xuất hình ảnh vào các dự án của mình.

Tài nguyên hữu ích

Bài viết liên quan

Chúng tôi cũng khuyên bạn nên truy cập vào các liên kết sau để tìm hiểu thêm về: