Python REST API を使用して PDF からテキストを抽出する

今日のデジタルの世界には情報があふれており、PDF ドキュメントからテキストを抽出する機能は、便利なだけでなく必需品となっています。長い PDF ファイルを精査して、研究で引用する重要な情報を探しているところや、ドキュメントのリポジトリを管理していて、分析用のデータを抽出しようとしているところを想像してみてください。このようなシナリオやその他多くのシナリオでは、PDF コンテンツを簡単にプレーンテキストに変換できる機能がゲームチェンジャーとして登場します。この記事では、Python Cloud SDK を使用して PDF からテキストを抽出することの重要な目的と明白な利点について説明します。この変革により、個人や組織は、情報が非常に重要である世界でデジタルコンテンツを効率的に管理、分析、および活用できるようになります。

PDF からテキストへの変換 REST API
Python で PDF からテキストを抽出する
cURL コマンドを使用した PDF からテキストへの変換

PDF からテキストへの変換 REST API

Aspose.PDF Cloud SDK for Python を使用すると、PDF ドキュメントからのテキスト抽出がシームレスかつ効率的に行えます。この多用途の SDK を使用すると、PDF コンテンツを簡単にプレーンテキストに変換し、デジタルドキュメント内に保存されている情報を活用できます。

Cloud SDK は、PIP および GitHub リポジトリから無料でダウンロードできます。ターミナル/コマンドプロンプトで次のコマンドを実行して、最新バージョンの SDK をインストールします。

 pip install asposepdfcloud

PyCharm IDE を使用している場合は、プロジェクトの依存関係として SDK を直接追加できます。

ファイル ->設定 ->プロジェクト ->Python インタープリター ->asposepdfcloud

インストール後、次の主要なステップは、Aspose.Cloud ダッシュボードから当社のクラウドサービスの無料サブスクリプションを取得することです。GitHub または Google アカウントをお持ちの場合は、サインアップするか、新しいアカウントの作成ボタンをクリックします。ダッシュボードにログインして、パーソナライズされたクライアント ID とクライアントシークレットの詳細を取得します。

Python で PDF からテキストを抽出する

Python SDK を使用して PDF ドキュメントからテキストを抽出するには、以下の手順に従ってください。

まず、引数としてクライアント ID とクライアントシークレットを指定して、ApiClient クラスのインスタンスを作成します。
次に、ApiClient オブジェクトを入力引数として受け取る PdfApi クラスのインスタンスを作成します。
ここで、LLX、LLY、URX、URY座標を指定してメソッドgettext(…)を呼び出します。

def extractText():
    try:
        #Client credentials
        client_secret = "1c9379bb7d701c26cc87e741a29987bb"
        client_id = "bbf94a2c-6d7e-4020-b4d2-b9809741374e"

        #initialize PdfApi client instance using client credetials
        pdf_api_client = asposepdfcloud.api_client.ApiClient(client_secret, client_id)

        # PdfApiClient を引数として渡しながら PdfApi インスタンスを作成します。
        pdf_api = PdfApi(pdf_api_client)

        #source image file
        input_file = 'awesomeTable.pdf'
        
        # テキストを抽出するメソッドを呼び出す
        response = pdf_api.get_text(name = input_file, llx=0,lly=0, urx=800, ury =800)
        print(response)
        
        # コンソールにメッセージを出力する(オプション)
        print('Text Extracted successfully from PDF !')    
    except ApiException as e:
        print("Exception while calling PdfApi: {0}".format(e))
        print("Code:" + str(e.code))
        print("Message:" + e.message)

PDFからテキストへの変換プレビュー — 画像 1:- PDF からテキストへのプレビュー。

ドキュメントの特定のページからテキストを抽出する必要がある場合は、pageNumber を引数として受け取る GetPageText API を使用してみてください。

cURL コマンドを使用した PDF からテキストへの変換

Aspose.PDF Cloud と cURL コマンドの強力な組み合わせを使用して、PDF コンテンツをプレーンテキストにシームレスに変換できます。この動的な統合により、PDF からテキストへの変換が簡素化されるだけでなく、ドキュメント管理とテキスト抽出エクスペリエンスを強化するさまざまな利点も得られます。

このアプローチの前提条件は、クライアントの資格情報に基づいて JSON Web Token (JWT) を生成することです。API は登録ユーザーのみがアクセスできるため、この手順は必須です。JWT トークンを生成するには、次のコマンドを実行してください。

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bbf94a2c-6d7e-4020-b4d2-b9809741374e&client_secret=1c9379bb7d701c26cc87e741a29987bb" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

JWT トークンを取得したら、次のコマンドを使用して、すべてのテキストコンテンツを抽出し、PDF をテキストに変換できます。出力は、ローカルドライブにプレーンテキストファイルとして保存されます。

curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/awesomeTable.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>" \
-o Extracted.txt

上記の例で使用したサンプルは、awesomeTable.pdfからダウンロードできます。

結論

PDF ドキュメントからテキストを抽出することは、デジタル情報があふれる世界では重要な要件です。このプロセスを検討するにあたり、2 つの動的な経路を検討しました。1 つは汎用性の高い Aspose.PDF Cloud SDK for Python 経由、もう 1 つは Aspose.PDF Cloud と cURL コマンドの強力な組み合わせ経由です。

どちらのアプローチも、静的な PDF コンテンツと動的なテキストの間のギャップを埋め、デジタル情報の管理、分析、および利用の方法を強化します。SDK の高度な機能を選択するか、cURL コマンドのシンプルさを選択するかにかかわらず、どちらの方法も PDF からテキストへの効率的な変換につながり、PDF ドキュメント内に隠された豊富なテキストデータを活用できるようになります。

詳細については、次のリンクにアクセスすることをお勧めします。

PDF からテキストへの変換 REST API#

Python で PDF からテキストを抽出する#

cURL コマンドを使用した PDF からテキストへの変換#

結論#

関連記事#

PDF からテキストへの変換 REST API

Python で PDF からテキストを抽出する

cURL コマンドを使用した PDF からテキストへの変換

結論

関連記事