PDFテキストを抽出する

.NET REST API を使用して PDF からテキストを抽出します。

PDF ドキュメントは、さまざまなプラットフォームやデバイス間で情報を共有および交換するための標準になっています。 PDF は安全で一貫した形式を提供しますが、これらの文書から重要なデータを抽出することは、特に大量の情報を扱う場合には困難な作業になる可能性があります。分析、データ入力、コンテンツ操作のいずれの目的でテキストを抽出する必要がある場合でも、信頼性が高く効率的なテキスト抽出ソリューションが不可欠です。この記事では、堅牢な Aspose.PDF Cloud SDK を利用した .NET REST API を使用して PDF ファイルからテキストを抽出する世界について詳しく説明します。

PDF処理用のREST API

Aspose.PDF Cloud SDK for .NET は、PDF からのテキスト抽出を簡素化する、堅牢でユーザーフレンドリーな API です。 Aspose.PDF Cloud SDK for .NET の際立った機能の 1 つは、複雑な PDF 構造を処理し、さまざまなレイアウトのドキュメントからテキストを正確に抽出する機能です。 PDF にテキスト、画像、表、その他の複雑な要素が含まれているかどうかに関係なく、API はドキュメント内をインテリジェントにナビゲートし、テキスト コンテンツを正確に取得できます。したがって、強力な機能、精度、統合の容易さにより、.NET アプリケーション内の PDF ドキュメントから貴重なテキスト データを抽出するのに理想的な選択肢となります。

この機能を始めるための最初のステップは、.NET ソリューションに Cloud SDK の参照を追加することです。そこで、NuGet パッケージ マネージャーで「Aspose.PDF-Cloud」を検索し、「パッケージの追加」ボタンをクリックします。次に、クラウド ダッシュボード にアクセスし、パーソナライズされたクライアント認証情報を取得します。

C# .NET を使用して PDF テキストを抽出する

このセクションでは、プログラムによって PDF からテキストを抽出する方法について詳しく説明します。

// 完全な例とデータ ファイルについては、次のサイトを参照してください。 
https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-dotnet

// https://dashboard.aspose.cloud/ からクライアントの認証情報を取得します。
string clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
string clientID = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";

// PdfApi のインスタンスを作成する
PdfApi pdfApi = new PdfApi(clientSecret, clientID);

// PDFファイル名を入力
String inputFile = "Binder1-1.pdf";
// PDFファイルの内容をストリームインスタンスに読み込みます。
var sourceFile = System.IO.File.OpenRead(inputFile);

// PDFファイルをクラウドストレージにアップロード
pdfApi.UploadFile("inputPDF.pdf", sourceFile);

// 左下隅の X 座標
Double LLX = 500.0;
// Y - 左下隅の座標。
Double LLY = 500.0;
// X - 右上隅の座標。
Double URX = 800.0;
// Y - 右上隅の座標。
Double URY = 800.0;

// API を呼び出して PDF ドキュメント上の特定の座標からテキストを抽出します
TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);

// 個々のテキスト出現箇所を横断する
for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
    // コンソールにテキストコンテンツを書き込む
    Console.WriteLine(response.TextOccurrences.List[counter].Text);
}
PDF テキストを抽出する

PDF ドキュメントから抽出されたテキストのプレビュー。

上記のコード スニペットに関する詳細を以下に示します。

PdfApi pdfApi = new PdfApi(clientSecret, clientID);

まず、クライアントの資格情報を引数として渡す PdfApi クラスのインスタンスを作成します。

String inputFile = "Binder1-1.pdf";
var sourceFile = System.IO.File.OpenRead(inputFile);

入力された PDF ファイルのコンテンツをストリーム インスタンスに読み込みます。

pdfApi.UploadFile("inputPDF.pdf", sourceFile);

PDF ドキュメントをクラウド ストレージにアップロードします。

TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);

API を呼び出して、PDF ファイルから特定のページ座標でテキストを抽出します。

for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
    // write text content in console
    Console.WriteLine(response.TextOccurrences.List[counter].Text);
}

抽出されたテキスト出現を含むリストを反復処理し、テキスト インスタンスをコンソールに出力します。

cURL コマンドを使用して PDF からテキストを解析する

cURL コマンドを Aspose.PDF Cloud API と組み合わせて使用すると、クラウド ストレージでホストされている PDF ファイルからテキスト コンテンツを簡単に抽出できます。 API は抽出プロセスをカスタマイズするためのさまざまなパラメーターをサポートしており、座標やその他のオプションを指定してテキストを正確に抽出できます。

このアプローチの最初のステップは、次のコマンドの実行中に JWT アクセス トークンを生成することです。

curl -v "https://api.aspose.cloud/connect/token" \
 -X POST \
 -d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
 -H "Content-Type: application/x-www-form-urlencoded" \
 -H "Accept: application/json"

JWT トークンが生成されたら、次のコマンドを実行して PDF ドキュメントからテキストを取得します。

curl -v "https://api.aspose.cloud/v3.0/pdf/{inputPDF}/text?splitRects=true&LLX=10&LLY=10&URX=800&URY=800" \
-X GET \
-H  "accept: application/json" \
-H  "authorization: Bearer {accessToken}" \
-o "extractedContent.txt"

「inputPDF」をクラウド ストレージですでに利用可能な PDF ドキュメントの名前に置き換え、「accessToken」を上記で生成された JWT トークンに置き換えます。

結論

結論として、Aspose.PDF Cloud SDK for .NET と cURL コマンド アプローチは両方とも、PDF ドキュメントからテキストを抽出するための効率的で信頼性の高いソリューションを提供します。 Aspose.PDF Cloud SDK for .NET は、幅広い機能を備えた包括的で開発者にとって使いやすい API を提供し、PDF テキスト抽出を .NET アプリケーションに統合するための強力な選択肢となります。一方、cURL コマンド アプローチは、Aspose.PDF Cloud API と対話するための柔軟でプラットフォームに依存しない方法を提供するため、さまざまな環境やプログラミング言語で作業する開発者にとって優れたオプションになります。

役立つリンク

関連記事

次のブログにアクセスすることを強くお勧めします。