PDF(Portable Document Format) ファイルは、異なるプラットフォーム間でドキュメントを共有するための最も信頼され、広く使用されているフォーマットの1つです。ソフトウェアやデバイスに関係なく、一貫したレイアウトと外観を保証します。しかし、開発者がPDFファイルからプログラムでテキストを抽出する必要がある状況もあります。たとえば、コンテンツの分析、文書のインデックス作成、またはPDFを編集可能なテキストフォーマットに変換することです。
この記事では、PDFファイルからテキストを抽出し、.NET REST APIを使用してPDFからテキストへのコンバータを構築する方法を探ります。これにより、REST API呼び出しを介してシームレスで自動化されたテキスト抽出が可能になります。
PDF 処理 API
Aspose.PDF Cloud SDK for .NETの力を活用して、PDFファイルから効率的にテキストを抽出します。テキスト抽出に加えて、SDKを使用すると、ゼロからまたはテンプレートからPDFドキュメントを作成し、既存のPDFを編集し、他のサポートされている形式に変換することができます。また、.NET REST APIを通じてPDFファイルの復号化、統合、操作などのタスクも直接実行できます。
今始めるために、.NETプロジェクトにSDKをインストールする必要があります。
NuGet\Install-Package Aspose.Pdf-Cloud -Version 25.9.0
私たちはまた、Cloud Dashboardで無料アカウントを作成し、個別のクライアント認証情報を取得する必要があります。
C#でPDFからテキストへの変換を行う
以下の手順に従って、C# .NETを使用してPDFファイルからテキストを抽出してください。
PdfApi pdfApi = new PdfApi(clientSecret, clientID);
PdfApi
クラスのオブジェクトを作成し、上記で取得したクライアント認証情報を引数として渡します。
String inputFile = "sourceFile.pdf";
var sourceFile = System.IO.File.OpenRead(inputFile);
pdfApi.UploadFile("sourceFile.pdf", sourceFile);
ローカルドライブからPDFを読み込み、UploadFile(...)
メソッドを使用してクラウドストレージにアップロードします。
TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);
PDFファイルからテキストコンテンツを抽出するために、GetText(...)
メソッドを使用して、指定する必要がある地域を特定する必要があります。
for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
// write text content in console
Console.WriteLine(response.TextOccurrences.List[counter].Text);
}
テキストコンテンツが抽出されたら、ローカルドライブに保存するか、コンソールに印刷することができます。
// より多くの例については、 https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-dotnet をご覧ください。
// https://dashboard.aspose.cloud/ からクライアント認証情報を取得してください。
string clientSecret = "XXXXXXXXX";
string clientID = "XXXXXX-XXXXXXX-be35-ff5c3a6aa4a2";
// PdfApiのオブジェクトを作成する際に、クライアントの資格情報を引数として渡します。
PdfApi pdfApi = new PdfApi(clientSecret, clientID);
// Input PDF ファイル名
String inputFile = "input.pdf";
// PDFファイルをストリームインスタンスに読み込む
var sourceFile = OpenRead(inputFile);
// クラウドストレージにPDFファイルをアップロードする
pdfApi.UploadFile("inputPDF.pdf", sourceFile);
// 左下隅のX座標
Double LLX = 200.0;
// 左下隅の Y 座標。
Double LLY = 200.0;
// 上右隅の X 座標。
Double URX = 600.0;
// 上右隅の Y 座標。
Double URY = 650.0;
// 指定された座標からテキストを抽出するためにAPIを呼び出します。
TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);
// 今、各テキストの出現を繰り返し処理し、コンソールに出力します。
// また、出力を直接 .txt ファイルに保存することもできます。
for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
// write text content in console
Console.WriteLine(response.TextOccurrences.List[counter].Text);
}
PDFからテキストを抽出するにはcURLを使用します。
.NETやJavaコードスニペットを使用する以外にも、cURLコマンドを使用してAspose.PDF CloudからPDFファイルのテキストを抽出することができます。このアプローチでは、前提条件としてJWTアクセストークン(クライアント資格情報に基づく)を生成する必要があり、次のコマンドを使用して取得できます。
ステップ 1. - JWT アクセストークンを取得する:
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=XXXXX-XXXXX-XXXXXX-ff5c3a6aa4a2&client_secret=XXXXXXXXXXXX" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
ステップ 1. - PDF ファイルからテキストを抽出する:
curl -v "https://api.aspose.cloud/v3.0/pdf/{inputPDF}/text?splitRects=true&LLX=10&LLY=10&URX=800&URY=800" \
-X GET \
-H "accept: application/json" \
-H "authorization: Bearer {Access_Token}" \
-o "extractedContent.txt"
- コマンドが正常に実行されると、指定された矩形領域からテキストがテキストファイルに抽出されます。
無料のPDFパーサーアプリ
APIの機能をコーディングやcURLコマンドなしでテストしたい場合は、[Free PDF Parser] アプリケーションを試してみてください。これは .NET REST APIs の上に構築されています。

結論の所見
この記事では、Aspose.PDF Cloud SDK for .NET を私たちの .NET プロジェクトに統合してテキスト抽出を行う方法の詳細を学び、同時にコマンドラインインターフェースを通じて PDF テキスト抽出を行うための cURL コマンドを使用するオプションも探求しました。したがって、あなたの目標がデータ分析、機械学習、またはその他の自動化目的であれ、SDK は PDF コンテンツを効率的に処理するための信頼性の高いツールを提供します。これらのスキルを実践し、プロのように PDF の取り扱いを効率化しましょう!
読み物
関連する記事
私たちはまた、次のリンクを訪れて、以下についてさらに学ぶことをお勧めします: