PDFからテキストへ

PythonでPDFをテキストに変換する方法

今日のデジタルの世界には情報があふれており、PDF ドキュメントからテキストを抽出する機能は、便利なだけでなく必需品となっています。長い PDF ファイルを精査して、研究で引用する重要な情報を探しているところや、ドキュメントのリポジトリを管理していて、分析用のデータを抽出しようとしているところを想像してみてください。このようなシナリオやその他多くのシナリオでは、PDF コンテンツを簡単にプレーンテキストに変換できる機能がゲームチェンジャーとして登場します。この記事では、Python Cloud SDK を使用して PDF からテキストを抽出することの重要な目的と明白な利点について説明します。この変革により、個人や組織は、情報が非常に重要である世界でデジタル コンテンツを効率的に管理、分析、および活用できるようになります。

PDF からテキストへの変換 REST API

Aspose.PDF Cloud SDK for Python を使用すると、PDF ドキュメントからのテキスト抽出がシームレスかつ効率的に行えます。この多用途の SDK を使用すると、PDF コンテンツを簡単にプレーン テキストに変換し、デジタル ドキュメント内に保存されている情報を活用できます。

Cloud SDK は、PIP および GitHub リポジトリから無料でダウンロードできます。ターミナル/コマンド プロンプトで次のコマンドを実行して、最新バージョンの SDK をインストールします。

 pip install asposepdfcloud

PyCharm IDE を使用している場合は、プロジェクトの依存関係として SDK を直接追加できます。

ファイル ->設定 ->プロジェクト ->Python インタープリター ->asposepdfcloud

インストール後、次の主要なステップは、Aspose.Cloud ダッシュボード から当社のクラウド サービスの無料サブスクリプションを取得することです。GitHub または Google アカウントをお持ちの場合は、サインアップするか、新しいアカウントの作成 ボタンをクリックします。ダッシュボードにログインして、パーソナライズされたクライアント ID とクライアント シークレットの詳細を取得します。

Python で PDF からテキストを抽出する

Python SDK を使用して PDF ドキュメントからテキストを抽出するには、以下の手順に従ってください。

  • まず、引数としてクライアント ID とクライアント シークレットを指定して、ApiClient クラスのインスタンスを作成します。
  • 次に、ApiClient オブジェクトを入力引数として受け取る PdfApi クラスのインスタンスを作成します。
  • ここで、LLX、LLY、URX、URY座標を指定してメソッドgettext(…)を呼び出します。
def extractText():
    try:
        #Client credentials
        client_secret = "1c9379bb7d701c26cc87e741a29987bb"
        client_id = "bbf94a2c-6d7e-4020-b4d2-b9809741374e"

        #initialize PdfApi client instance using client credetials
        pdf_api_client = asposepdfcloud.api_client.ApiClient(client_secret, client_id)

        # PdfApiClient を引数として渡しながら PdfApi インスタンスを作成します。
        pdf_api = PdfApi(pdf_api_client)

        #source image file
        input_file = 'awesomeTable.pdf'
        
        # テキストを抽出するメソッドを呼び出す
        response = pdf_api.get_text(name = input_file, llx=0,lly=0, urx=800, ury =800)
        print(response)
        
        # コンソールにメッセージを出力する(オプション)
        print('Text Extracted successfully from PDF !')    
    except ApiException as e:
        print("Exception while calling PdfApi: {0}".format(e))
        print("Code:" + str(e.code))
        print("Message:" + e.message)
PDFからテキストへの変換プレビュー

画像 1:- PDF からテキストへのプレビュー。

ドキュメントの特定のページからテキストを抽出する必要がある場合は、pageNumber を引数として受け取る GetPageText API を使用してみてください。

cURL コマンドを使用した PDF からテキストへの変換

Aspose.PDF Cloud と cURL コマンドの強力な組み合わせを使用して、PDF コンテンツをプレーン テキストにシームレスに変換できます。この動的な統合により、PDF からテキストへの変換が簡素化されるだけでなく、ドキュメント管理とテキスト抽出エクスペリエンスを強化するさまざまな利点も得られます。

このアプローチの前提条件は、クライアントの資格情報に基づいて JSON Web Token (JWT) を生成することです。API は登録ユーザーのみがアクセスできるため、この手順は必須です。JWT トークンを生成するには、次のコマンドを実行してください。

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bbf94a2c-6d7e-4020-b4d2-b9809741374e&client_secret=1c9379bb7d701c26cc87e741a29987bb" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

JWT トークンを取得したら、次のコマンドを使用して、すべてのテキスト コンテンツを抽出し、PDF をテキストに変換できます。出力は、ローカル ドライブにプレーン テキスト ファイルとして保存されます。

curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/awesomeTable.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>" \
-o Extracted.txt

上記の例で使用したサンプルは、awesomeTable.pdfからダウンロードできます。

結論

PDF ドキュメントからテキストを抽出することは、デジタル情報があふれる世界では重要な要件です。このプロセスを検討するにあたり、2 つの動的な経路を検討しました。1 つは汎用性の高い Aspose.PDF Cloud SDK for Python 経由、もう 1 つは Aspose.PDF Cloud と cURL コマンドの強力な組み合わせ経由です。

どちらのアプローチも、静的な PDF コンテンツと動的なテキストの間のギャップを埋め、デジタル情報の管理、分析、および利用の方法を強化します。SDK の高度な機能を選択するか、cURL コマンドのシンプルさを選択するかにかかわらず、どちらの方法も PDF からテキストへの効率的な変換につながり、PDF ドキュメント内に隠された豊富なテキスト データを活用できるようになります。

関連記事

詳細については、次のリンクにアクセスすることをお勧めします。