我々はしばしば PDF をテキストファイルに変換する必要があります。これはデータ分析、検索インデックス作成、またはコンテンツの再利用のために使用されます。また、PDFからテキストコンバータを構築したり、オンラインでOCRを自動化したり、さらなる処理のためにPDF文書からテキストをコピーしたりしたい場合、私たちのREST APIは信頼性が高く、開発者に優しいソリューションを提供します。
PDF 変換 API
Aspose.PDF Cloud SDK for .NET は、ドキュメントのテキスト抽出とPDF処理を簡素化するクラウドベースのAPIです。テキストベースおよび画像ベースのPDFの両方をインテリジェントに処理し、TXT形式で正確で構造化された出力を提供します。
キー機能には以下が含まれます:
- PDFからTXTファイルへの抽出を高い精度で行います。
- クロスプラットフォーム REST API — C#、.NET Core、または HTTP サポートを持つ任意の環境でシームレスに動作します。
- 部分抽出のサポート — 領域を定義し、特定のエリアからテキストを抽出します。
始めるには、NuGet を使用して .NET プロジェクトに SDK を追加します:
Install-Package Aspose.PDF-Cloud
その後、Aspose Cloud Dashboardを訪れて、クライアント ID とクライアント シークレットの資格情報を取得してください。
C# .NETを使用したPDFからテキストへの変換
PDFをテキストファイルに変換する方法をC#を使用して.NET REST APIで見てみましょう。
ステップ 1. - クライアント認証情報を使用して PdfApi
クラスのインスタンスを作成します。
PdfApi pdfApi = new PdfApi(clientSecret, clientID);
ステップ 2. - 入力 PDF ファイルを読み取り、クラウド ストレージにアップロードします。
var sourceFile = File.OpenRead(inputFile);
pdfApi.UploadFile("inputPDF.pdf", sourceFile);
ステップ 3. - PDF 内の長方形領域を指定し、GetText(...)
メソッドを使用してテキストを抽出します。
TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);
ステップ 4. - テキストの出現を含むリストを反復処理し、それをローカルドライブに保存します。
foreach (var textFragment in response.TextOccurrences.List)
{
output.WriteLine(textFragment.Text);
}
// 完全な例とデータファイルについては、https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-dotnet にアクセスしてください。
// https://dashboard.aspose.cloud/ からクライアントの資格情報を取得してください。
// PdfApi クラスのインスタンスを作成します。
var pdfApi = new PdfApi("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
// クラウドストレージにPDFをアップロードしてください。
using (var fileStream = File.OpenRead("inputPDF.pdf"))
{
pdfApi.UploadFile("inputPDF.pdf", fileStream);
}
// Extract text from the uploaded PDF
var response = pdfApi.GetText("inputPDF.pdf", 0, 0, 800, 800, null, null, null, null, null);
// 抽出したテキストをローカルに保存します。
using (StreamWriter output = new StreamWriter("output.txt"))
{
foreach (var textFragment in response.TextOccurrences.List)
{
output.WriteLine(textFragment.Text);
}
}
Console.WriteLine("PDF to text conversion completed successfully!");
PDFをTXTファイルに変換するにはcURLを使用します。
スクリプトまたはクロスプラットフォームのワークフローを好む開発者のために、Aspose.PDF Cloud REST APIはcURLコマンドを使用してアクセスすることもできます。
ステップ 1. – アクセストークンを生成する:
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=XXXXXXX-XXXXXX-ff5c3a6aa4a2&client_secret=XXXXXXXXXXX" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
ステップ 2. – PDF からテキストを抽出する JWTトークンが生成されたら、PDFドキュメントからテキストを取得するために次のコマンドを実行してください。
curl -v "https://api.aspose.cloud/v3.0/pdf/{inputPDF}/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-X GET \
-H "accept: application/json" \
-H "authorization: Bearer {ACCESS_TOKEN}" \
-o "resultant.txt"
このcURLコマンドは、PDFファイルからテキストコンテンツを取得し、それを.txtファイルに保存します。これは自動化された環境でのPDFからテキストファイルへの変換に理想的な方法です。
無料のPDFからテキストへの変換ツールをお試しください
コーディングなしでPDFをTXTに変換する方法を探していますか? 無料の Online PDF to Text Converter をお試しください — Aspose.PDF Cloud によって提供されています。PDF をアップロードし、数秒で抽出したテキストファイルをダウンロードするだけです。

結論
この記事では、PDFからテキストへの変換が情報を効率的に抽出および再利用するために不可欠であることを学びました。Aspose.PDF Cloudを使用すると、PDFからテキストをコピーするプロセスを自動化し、オンラインでOCRを使用してスキャンしたファイルを処理し、分析や検索インデックス用にデータを構造化されたテキストとしてエクスポートできます。
よくある質問 (FAQs)
-
Can I copy text from PDF programmatically? 確かに。APIを使用すると、PDFファイルからテキストをコピーすることができ、すべてのテキストの出現を取得したり、座標を使用して特定の領域から抽出したりできます。
-
PDFからテキストへの違いとテキストからPDFへの違いは何ですか? PDFからテキストは、文書からテキストデータを抽出し、テキストからPDFはプレーンテキスト入力から新しいPDF文書を作成します。Aspose.PDF Cloudは、両方の操作をサポートしています。
-
Adobe Acrobatをインストールする必要がありますか? いいえ。Aspose.PDF Cloud SDKはAdobe Acrobatや他のソフトウェアとは独立して動作します。すべてのPDFからテキストへの変換操作はクラウド内で行われます。
-
複雑なレイアウトに対して抽出されたテキストは正確ですか? はい。そのAPIは、マルチカラムレイアウト、テーブル、および混在コンテンツのPDFからテキストを正確に抽出でき、生成されるTXTファイルの構造をクリーンで読みやすいものに保ちます。
役立つリンク
関連する記事
以下のブログを訪れることを強くお勧めします: