PDF ファイルは、インターネット上でデータや情報を共有するために広く使用されている形式の 1 つです。ただし、カスタム フォントを使用してコンテンツをコンテンツ化すると、結果のファイルのサイズが大きくなる場合があります。さらに、さらに処理するためにテキスト コンテンツを抽出する必要がある場合もあるため、このシナリオでは、PDF からテキストへの変換が実行可能なソリューションの 1 つです。この記事では、PDF を TXT 形式に変換する方法について詳しく説明します。
PDF からテキストへの変換 API
Aspose.Words Cloud SDK for Java は、Word ドキュメント処理の主要なソリューションです。さまざまなファイルを DOC、HTML、JPEG、およびその他のさまざまな サポートされている形式 に作成、編集、変換する機能を提供する素晴らしいソリューションです。 Word 文書以外にも、PDF ファイルの読み込みと出力の TXT、HTML、XPS、TIFF などへの保存もサポートしています。 SDK を使用するには、Maven ビルド タイプの pom.xml に次の詳細を追加してください。
<repositories>
<repository>
<id>AsposeJavaAPI</id>
<name>Aspose Java API</name>
<url>https://repository.aspose.cloud/repo/</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-words-cloud</artifactId>
<version>22.5.0</version>
</dependency>
</dependencies>
Aspose.Cloud ダッシュボード にアクセスして、無料のアカウントを作成する必要があります。既存の GitHub または Google アカウントを使用してサインアップするか、Create a new Account ボタンをクリックするだけです。
JavaでPDFをTXTに変換
以下の手順に従って、Java コード スニペットを使用して要件を達成してください。
- まず、クライアント ID とクライアント シークレットをパラメーターとして使用して、WordsApi のオブジェクトを作成します。
- 次に、File オブジェクトを使用して、ローカル ドライブから PDF ファイルのコンテンツを読み取ります。
- 3 番目に、UploadFileRequest インスタンスを使用して PDF ファイルのコンテンツを読み取ります。
- 次のステップは、uploadFile(…) メソッドを呼び出して、PDF をクラウド ストレージにアップロードすることです。
- ここで、GetDocumentWithFormatRequest(…) のオブジェクトを作成し、出力形式を TXT 形式として指定します。
- 最後に、メソッド getDocumentWithFormat(…) を呼び出して PDF をテキストに変換し、出力をクラウド ストレージに保存します。
// その他の例については、https://github.com/aspose-words-cloud/aspose-words-cloud-java をご覧ください。
try
{
// https://dashboard.aspose.cloud/ から ClientID と ClientSecret を取得します。
String clientId = "bbf94a2c-6d7e-4020-b4d2-b9809741374e";
String clientSecret = "1c9379bb7d701c26cc87e741a29987bb";
// WordsApi のオブジェクトを作成する
// baseUrl が null の場合、WordsApi はデフォルトの https://api.aspose.cloud を使用します
WordsApi wordsApi = new WordsApi(clientId, clientSecret, null);
// ローカル ドライブから PDF のコンテンツを読み取る
File file = new File("c://input.pdf");
// ファイル アップロード リクエストの作成
UploadFileRequest uploadRequest = new UploadFileRequest(Files.readAllBytes(file.toPath()), "input.pdf", null);
// ファイルをクラウド ストレージにアップロードする
wordsApi.uploadFile(uploadRequest);
// ドキュメント変換リクエスト オブジェクトを作成する
GetDocumentWithFormatRequest request = new GetDocumentWithFormatRequest("input.pdf", "PDF", "", "Internal","", "", "", "extracted.txt","");
// API を呼び出してオンラインで PDF をテキストに変換する
wordsApi.getDocumentWithFormat(request);
System.out.println("PDF to TXT Conversion sucessfull !");
}catch(Exception ex)
{
System.out.println(ex);
}
次のコード スニペットを使用して、ローカル ドライブから PDF を読み込み、TXT 形式で保存してください。変換後、結果のファイルはクラウド ストレージに保存されます。
- まず、クライアント ID とクライアント シークレットをパラメーターとして使用して、WordsApi のオブジェクトを作成します。
- 次に、File オブジェクトを使用して、ローカル ドライブから PDF ファイルのコンテンツを読み取ります。
- 3 番目に、ConvertDocumentRequest(…) のオブジェクトを作成します。ここで、File オブジェクトの引数、結果の形式としての TXT、および結果の TXT ファイルの出力パスを提供します。
- 最後に、メソッド convertDocument(…) を呼び出して PDF をテキストに変換し、出力をクラウド ストレージに保存します。
// その他の例については、https://github.com/aspose-words-cloud/aspose-words-cloud-java をご覧ください。
try
{
// https://dashboard.aspose.cloud/ から ClientID と ClientSecret を取得します。
String clientId = "bbf94a2c-6d7e-4020-b4d2-b9809741374e";
String clientSecret = "1c9379bb7d701c26cc87e741a29987bb";
// WordsApi のオブジェクトを作成する
// baseUrl が null の場合、WordsApi はデフォルトの https://api.aspose.cloud を使用します
WordsApi wordsApi = new WordsApi(clientId, clientSecret, null);
// ローカル ドライブから PDF のコンテンツを読み取る
File file = new File("c://input.pdf");
// ドキュメント変換リクエスト オブジェクトを作成する
ConvertDocumentRequest request = new ConvertDocumentRequest(Files.readAllBytes(file.toPath()), "TXT", "Extracted.txt", null, null, null);
// API を呼び出して PDF をテキスト形式に変換する
wordsApi.convertDocument(request);
System.out.println("PDF to TXT Conversion sucessfull !");
}catch(Exception ex)
{
System.out.println(ex);
}
cURL コマンドを使用した PDF から TXT
このセクションでは、cURL コマンドを使用して PDF からテキストへの変換を実行します。前提条件として、次のコマンドを使用して、クライアント資格情報に基づいて JWT アクセス トークンを生成する必要があります。
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bbf94a2c-6d7e-4020-b4d2-b9809741374e&client_secret=1c9379bb7d701c26cc87e741a29987bb" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
次のコマンドを実行して、PDF ファイルをクラウド ストレージにアップロードしてください。
curl -v -X PUT "https://api.aspose.cloud/v4.0/words/storage/file/input.pdf" \
-H "accept: application/json" \
-H "Authorization: Bearer <JWT Token>" \
-H "Content-Type: multipart/form-data" \
-d {"fileContent":{}}
最後に、次のコマンドを実行して PDF をテキスト形式に変換します。
curl -v -X GET "https://api.aspose.cloud/v4.0/words/Quick%20Start%20Guide-%20Inventory%20Software%20Suite.pdf?format=TXT&outPath=extracted.txt" \
-H "accept: application/octet-stream" \
-H "Authorization: Bearer <JWT Token>"
結論
この記事では、Java コード スニペットを使用して PDF をテキストに変換する方法について詳しく説明しました。同様に、cURL コマンドを使用して PDF を TXT に変換する手順も学習しました。より良い学習のために、Web ブラウザー内で Swagger UI を使用して API を調べることができます。
関連する質問や問題が発生した場合は、無料の テクニカル サポート フォーラム からお気軽にお問い合わせください。
関連記事
詳細については、次の記事を参照することを強くお勧めします。