PDFからTXT

JavaでオンラインでPDFをTXTに変換

PDF ファイルは、インターネット上でデータや情報を共有するために広く使用されている形式の 1 つです。ただし、カスタム フォントを使用してコンテンツをコンテンツ化すると、結果のファイルのサイズが大きくなる場合があります。さらに、さらに処理するためにテキスト コンテンツを抽出する必要がある場合もあるため、このシナリオでは、PDF からテキストへの変換が実行可能なソリューションの 1 つです。この記事では、PDF を TXT 形式に変換する方法について詳しく説明します。

PDF からテキストへの変換 API

Aspose.Words Cloud SDK for Java は、Word ドキュメント処理の主要なソリューションです。さまざまなファイルを DOCHTMLJPEG、およびその他のさまざまな サポートされている形式 に作成、編集、変換する機能を提供する素晴らしいソリューションです。 Word 文書以外にも、PDF ファイルの読み込みと出力の TXTHTMLXPSTIFF などへの保存もサポートしています。 SDK を使用するには、Maven ビルド タイプの pom.xml に次の詳細を追加してください。

<repositories>
    <repository>
        <id>AsposeJavaAPI</id>
        <name>Aspose Java API</name>
        <url>https://repository.aspose.cloud/repo/</url>
    </repository>
</repositories>

<dependencies>
    <dependency>
		<groupId>com.aspose</groupId>
		<artifactId>aspose-words-cloud</artifactId>
		<version>22.5.0</version>
	</dependency>
</dependencies>

Aspose.Cloud ダッシュボード にアクセスして、無料のアカウントを作成する必要があります。既存の GitHub または Google アカウントを使用してサインアップするか、Create a new Account ボタンをクリックするだけです。

JavaでPDFをTXTに変換

以下の手順に従って、Java コード スニペットを使用して要件を達成してください。

  • まず、クライアント ID とクライアント シークレットをパラメーターとして使用して、WordsApi のオブジェクトを作成します。
  • 次に、File オブジェクトを使用して、ローカル ドライブから PDF ファイルのコンテンツを読み取ります。
  • 3 番目に、UploadFileRequest インスタンスを使用して PDF ファイルのコンテンツを読み取ります。
  • 次のステップは、uploadFile(…) メソッドを呼び出して、PDF をクラウド ストレージにアップロードすることです。
  • ここで、GetDocumentWithFormatRequest(…) のオブジェクトを作成し、出力形式を TXT 形式として指定します。
  • 最後に、メソッド getDocumentWithFormat(…) を呼び出して PDF をテキストに変換し、出力をクラウド ストレージに保存します。
// その他の例については、https://github.com/aspose-words-cloud/aspose-words-cloud-java をご覧ください。

try
    {
    // https://dashboard.aspose.cloud/ から ClientID と ClientSecret を取得します。
    String clientId = "bbf94a2c-6d7e-4020-b4d2-b9809741374e";
    String clientSecret = "1c9379bb7d701c26cc87e741a29987bb";
  
    // WordsApi のオブジェクトを作成する
    // baseUrl が null の場合、WordsApi はデフォルトの https://api.aspose.cloud を使用します
    WordsApi wordsApi = new WordsApi(clientId, clientSecret, null);

    // ローカル ドライブから PDF のコンテンツを読み取る
    File file = new File("c://input.pdf");
    
    // ファイル アップロード リクエストの作成
    UploadFileRequest uploadRequest = new UploadFileRequest(Files.readAllBytes(file.toPath()), "input.pdf", null);
    
    // ファイルをクラウド ストレージにアップロードする
    wordsApi.uploadFile(uploadRequest);
        
    // ドキュメント変換リクエスト オブジェクトを作成する
    GetDocumentWithFormatRequest request = new GetDocumentWithFormatRequest("input.pdf", "PDF", "", "Internal","", "", "", "extracted.txt","");
        
    // API を呼び出してオンラインで PDF をテキストに変換する
    wordsApi.getDocumentWithFormat(request);
    
    System.out.println("PDF to TXT Conversion sucessfull !");
    }catch(Exception ex)
    {
        System.out.println(ex);
    }

次のコード スニペットを使用して、ローカル ドライブから PDF を読み込み、TXT 形式で保存してください。変換後、結果のファイルはクラウド ストレージに保存されます。

  • まず、クライアント ID とクライアント シークレットをパラメーターとして使用して、WordsApi のオブジェクトを作成します。
  • 次に、File オブジェクトを使用して、ローカル ドライブから PDF ファイルのコンテンツを読み取ります。
  • 3 番目に、ConvertDocumentRequest(…) のオブジェクトを作成します。ここで、File オブジェクトの引数、結果の形式としての TXT、および結果の TXT ファイルの出力パスを提供します。
  • 最後に、メソッド convertDocument(…) を呼び出して PDF をテキストに変換し、出力をクラウド ストレージに保存します。
// その他の例については、https://github.com/aspose-words-cloud/aspose-words-cloud-java をご覧ください。

try
    {
    // https://dashboard.aspose.cloud/ から ClientID と ClientSecret を取得します。
    String clientId = "bbf94a2c-6d7e-4020-b4d2-b9809741374e";
    String clientSecret = "1c9379bb7d701c26cc87e741a29987bb";
  
    // WordsApi のオブジェクトを作成する
    // baseUrl が null の場合、WordsApi はデフォルトの https://api.aspose.cloud を使用します
    WordsApi wordsApi = new WordsApi(clientId, clientSecret, null);

    // ローカル ドライブから PDF のコンテンツを読み取る
    File file = new File("c://input.pdf");
           
    // ドキュメント変換リクエスト オブジェクトを作成する
    ConvertDocumentRequest request = new ConvertDocumentRequest(Files.readAllBytes(file.toPath()), "TXT", "Extracted.txt", null, null, null);
        
    // API を呼び出して PDF をテキスト形式に変換する
    wordsApi.convertDocument(request);
    
    System.out.println("PDF to TXT Conversion sucessfull !");
    }catch(Exception ex)
    {
        System.out.println(ex);
    }
PDFからテキストへ

画像 1:- クラウド ストレージでの PDF からテキストへの変換のプレビュー

cURL コマンドを使用した PDF から TXT

このセクションでは、cURL コマンドを使用して PDF からテキストへの変換を実行します。前提条件として、次のコマンドを使用して、クライアント資格情報に基づいて JWT アクセス トークンを生成する必要があります。

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bbf94a2c-6d7e-4020-b4d2-b9809741374e&client_secret=1c9379bb7d701c26cc87e741a29987bb" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

次のコマンドを実行して、PDF ファイルをクラウド ストレージにアップロードしてください。

curl -v -X PUT "https://api.aspose.cloud/v4.0/words/storage/file/input.pdf" \
-H  "accept: application/json" \
-H  "Authorization: Bearer <JWT Token>" \
-H  "Content-Type: multipart/form-data" \
-d {"fileContent":{}}

最後に、次のコマンドを実行して PDF をテキスト形式に変換します。

curl -v -X GET "https://api.aspose.cloud/v4.0/words/Quick%20Start%20Guide-%20Inventory%20Software%20Suite.pdf?format=TXT&outPath=extracted.txt" \
-H  "accept: application/octet-stream" \
-H  "Authorization: Bearer <JWT Token>"

結論

この記事では、Java コード スニペットを使用して PDF をテキストに変換する方法について詳しく説明しました。同様に、cURL コマンドを使用して PDF を TXT に変換する手順も学習しました。より良い学習のために、Web ブラウザー内で Swagger UI を使用して API を調べることができます。

関連する質問や問題が発生した場合は、無料の テクニカル サポート フォーラム からお気軽にお問い合わせください。

関連記事

詳細については、次の記事を参照することを強くお勧めします。