Python Cloud SDK を使用して PDF から画像を抽出する

PDFは、レポート、プレゼンテーション、パンフレットなど、さまざまな種類のドキュメントを保存および共有するために広く使用されています。ただし、これらのファイルから画像を抽出するとなると、時間がかかり、面倒なプロセスになる可能性があります。画像をさらに編集、分析、または独自のプロジェクトに含めるために抽出する必要がある場合でも、信頼性が高く効率的なアプローチが不可欠です。したがって、プログラミングSDKの機能を活用すると、画像抽出プロセスを合理化し、貴重な時間と労力を節約できます。この記事では、Python Cloud SDKを使用してPDFファイルから画像を抽出する方法の詳細を探り、まったく新しいレベルの生産性と利便性を実現します。

PDF処理クラウドSDK
Python で PDF から画像を抽出する
cURL コマンドを使用して PDF 画像をダウンロードする

PDF処理クラウドSDK

Python を使用して PDF ファイルから画像を抽出する場合、Aspose.PDF Cloud API は強力で多用途なツールです。Aspose.PDF Cloud SDK for Python を使用すると、PDF から画像を抽出するだけでなく、PDF を別の形式に変換したり、注釈を追加したり、PDF ドキュメントを結合または分割したりするなど、さまざまなタスクを実行できます。さらに、SDK は包括的な API セットを提供し、PDF ファイルをプログラムで操作して時間と労力を節約できます。

さて、SDKをインストールするには、PIPまたはGitHubリポジトリからダウンロードしてください。ターミナル/コマンドプロンプトで次のコマンドを実行して、システムに最新バージョンのSDKをインストールしてください。

 pip install asposepdfcloud

PyCharm IDE

PyCharm IDE を使用している場合は、プロジェクトの依存関係として SDK を直接追加できます。

ファイル ->設定 ->プロジェクト ->Python インタープリター ->asposepdfcloud

Aspose.PDF Python パッケージ — 画像 2:- Aspose.PDF Cloud Python パッケージ。

もう 1 つの重要なステップは、GitHub または Google アカウントを使用してクラウドダッシュボードで無料アカウントを作成することです。または、新しいアカウントを作成ボタンをクリックして必要な情報を入力し、パーソナライズされたクライアント資格情報を取得します。

Python で PDF から画像を抽出する

PDF ドキュメントから JPEG 形式の画像を抽出し、クラウドストレージのフォルダーに保存するには、以下の手順に従ってください。

まず、引数としてクライアント ID とクライアントシークレットを指定して、ApiClient クラスのインスタンスを作成します。
次に、ApiClient オブジェクトを引数として受け取る PdfApi クラスのインスタンスを作成します。
ここで、入力PDF名、それぞれのPDFページ番号、および抽出された画像を保存するターゲットフォルダーを指定するオプションのパラメーターを受け取るメソッドputimagesextractasjpeg(…)を呼び出します。

def extractImages():
    try:
        #Client credentials
        client_secret = "1c9379bb7d701c26cc87e741a29987bb"
        client_id = "bbf94a2c-6d7e-4020-b4d2-b9809741374e"

        #initialize PdfApi client instance using client credetials
        pdf_api_client = asposepdfcloud.api_client.ApiClient(client_secret, client_id)

        # PdfApiClient を引数として渡しながら PdfApi インスタンスを作成します。
        pdf_api = PdfApi(pdf_api_client)

        #source image file
        input_file = 'URL2PDF.pdf'

        # APIを呼び出して画像をJPEGとして抽出し、クラウドストレージのExtractedImagesフォルダに保存します。
        response = pdf_api.put_images_extract_as_jpeg(name = input_file, page_number= 3, dest_folder = 'ExtractedImages')
        
        print(response)
        # コンソールにメッセージを出力する(オプション)
        print('Images successfully extracted from PDF !')    
    except ApiException as e:
        print("Exception while calling PdfApi: {0}".format(e))
        print("Code:" + str(e.code))
        print("Message:" + e.message)

API は、抽出された画像の幅と高さを指定するための 2 つのオプションパラメータもサポートしています。

キャプション — Image 4:- Preview of extracted images.

他の形式で画像を抽出する必要がある場合は、次の API の使用を検討してください。

PutImagesExtractAsTiff - ドキュメント画像をTIFF形式で抽出する

PutImagesExtractAsGif - ドキュメント画像をGIF形式で抽出する

PutImagesExtractAsPng - ドキュメント画像をPNG形式で抽出する

cURL コマンドを使用して PDF 画像をダウンロードする

PDF ファイルからの画像抽出は、cURL コマンドで Aspose.PDF Cloud API を使用しても実行できます。cURL コマンドを使用すると、API エンドポイントに HTTP 要求を送信し、PDF から画像を簡単に抽出できます。このアプローチでは、画像抽出機能をスクリプトやアプリケーションに直接統合できるため、柔軟性と利便性が高まります。さらに、Windows、Linux、macOS、その他のオペレーティングシステムなど、あらゆるプラットフォームでコマンドラインターミナルを介して REST API にアクセスする機能も得られます。

このセクションでは、cURL コマンドを使用して PNG 形式で画像を抽出し、出力をクラウドストレージに保存します。最初の手順は、次のコマンドを実行して JSON Web Token (JWT) を生成することです。

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bbf94a2c-6d7e-4020-b4d2-b9809741374e&client_secret=1c9379bb7d701c26cc87e741a29987bb" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

ここで、以下のコマンドを実行して、PDF ドキュメントの 3 ページ目からのみ画像を抽出します。画像は PNG 形式で抽出されます。

curl -v -X PUT "https://api.aspose.cloud/v3.0/pdf/URL2PDF.pdf/pages/3/images/extract/png?width=0&height=0&destFolder=ExtractedImages" \
-H  "Accept: application/json" \
-H  "authorization: Bearer <JWT Token>" \
-d{}

上記の例で使用したサンプルPDFファイルはURL2PDF.pdfからダウンロードできます。

結論

結論として、PDF ファイルから画像を抽出することは、Aspose.PDF Cloud SDK for Python と cURL コマンドの両方を使用して実現できる貴重な機能です。Python プログラミングの利便性とシンプルさを好むか、cURL コマンドの汎用性を好むかにかかわらず、Aspose.PDF Cloud は、このタスクを実行するための堅牢な API を提供します。クラウドのパワーを活用することで、PDF ドキュメントから画像を簡単に抽出し、ワークフローを強化できます。それにもかかわらず、Aspose.PDF Cloud を使用すると、要件に最適なアプローチを柔軟に選択し、画像抽出機能をプロジェクトにシームレスに統合できます。

役に立つリソース

ライセンスサブスクリプション

Python SDKのソースコード

無料製品サポートフォーラム

詳細については、次のリンクにアクセスすることをお勧めします。

PDF処理クラウドSDK#

PyCharm IDE#

Python で PDF から画像を抽出する#

cURL コマンドを使用して PDF 画像をダウンロードする#

結論#

役に立つリソース#

関連記事#

PDF処理クラウドSDK

PyCharm IDE

Python で PDF から画像を抽出する

cURL コマンドを使用して PDF 画像をダウンロードする

結論

役に立つリソース

関連記事