デジタル環境では、PDF を XML (拡張マークアップ言語) に変換する必要性が高まっています。 )これほど批判的なことはありません。 PDF は形式の保持と共有には優れていますが、データの抽出と構造化に関してはしばしば課題が生じます。一方、XML は、データを整理、保存、転送するために設計された多用途のマークアップ言語です。 PDF を XML に変換することで、非構造化コンテンツと構造化データの間のギャップを埋め、データ分析からコンテンツの再利用に至るまで、さまざまなアプリケーションを可能にします。
.NET REST API を使用して PDF を XML に変換する方法を詳しく見てみましょう。
PDF から XML への変換のための REST API
Aspose.PDF Cloud SDK for .NET の機能を活用すると、変換がシームレスかつ効果的になります。この強力な SDK は、PDF から XML への変換だけでなく、ドキュメント操作からデータ抽出まで幅広い機能を提供します。ドキュメント データの処理と利用方法に革命をもたらすために、PDF を XML に変換するプロセスを見てみましょう。
Visual Studio IDE 内の NuGet パッケージ マネージャーで「Aspose.PDF-Cloud」を検索し、「パッケージの追加」ボタンをクリックすると、SDK 参照がプロジェクトに追加されます。
クラウド ダッシュボード からクライアントの認証情報を取得する必要もあります。既存のアカウントをお持ちでない場合は、クイック スタート で指定された手順に従って無料アカウントを作成してください。
C# .NET で PDF to XML ファイル コンバーターを開発する
データの構造化表現のために PDF ファイルを XML に変換するには、以下の手順に従ってください。
// その他の例については、https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-dotnet/tree/master/Examples を参照してください。
// https://dashboard.aspose.cloud/ からクライアントの認証情報を取得します。
string clientSecret = "c71cfe618cc6c0944f8f96bdef9813ac";
string clientID = "163c02a1-fcaa-4f79-be54-33012487e783";
// PdfApi のインスタンスを作成する
PdfApi pdfApi = new PdfApi(clientSecret, clientID);
var response = pdfApi.GetPdfInStorageToXml("Hardy02.pdf");
if (response != null)
{
Console.WriteLine("PDF to XML conversion completed successfully !");
}
saveToDisk(response,"ResultantFile.xml");
// ストリーム コンテンツをローカル ドライブ上のファイルに保存するカスタム メソッド
public static void saveToDisk(Stream responseStream, String resultantFile)
{
var fileStream = File.Create(resultantFile);
responseStream.Seek(0, SeekOrigin.Begin);
responseStream.CopyTo(fileStream);
fileStream.Close();
}
以下に、上記のコード スニペットに関する簡単な詳細を示します。
PdfApi pdfApi = new PdfApi(clientSecret, clientID);
クライアントの資格情報を入力引数として渡しながら、PdfApi クラスのオブジェクトを作成します。
pdfApi.GetPdfInStorageToXml("Hardy02.pdf");
次に、API を呼び出して、タグ付き PDF ファイルを XML 形式に変換します。次に、カスタム メソッドを使用して出力をローカル ドライブに保存します。
cURL コマンドを使用して PDF を XML に変換する
Aspose.PDF Cloud API を cURL コマンドと組み合わせて利用すると、PDF から XML への変換が著しく効率的かつ柔軟になります。この強力な組み合わせにより、変換プロセスが簡素化されるだけでなく、さまざまなアプリケーション全体でのデータへのアクセス性と使いやすさも向上します。この変換により、データの抽出、共有、解釈が容易になるため、この変換についてさらに詳しく見てみましょう。
このアプローチの最初のステップは、JWT アクセス トークンの生成です。したがって、次のコマンドを実行してください。
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=163c02a1-fcaa-4f79-be54-33012487e783&client_secret=c71cfe618cc6c0944f8f96bdef9813ac" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
JWT トークンが生成されたら、次のコマンドを実行して、タグ付き PDF ファイルを XML 形式に変換する必要があります。変換後、結果の XML はローカル ドライブに保存されます。
curl -v "https://api.aspose.cloud/v3.0/pdf/{sourceFile}/convert/xml" \
-X GET \
-H "accept: multipart/form-data" \
-H "authorization: Bearer {accessToken}" \
-o "Converted.xml"
sourceFile
をクラウド ストレージですでに利用可能な入力 PDF ファイルの名前に置き換え、accessToken
を上記で生成された JWT アクセス トークンに置き換えます。
結論
結論として、.NET 用の堅牢な Aspose.PDF Cloud SDK を選択する場合でも、Aspose.PDF Cloud と連携して cURL コマンドを利用する場合でも、データ利用を強化するために PDF から XML 形式へのシームレスな変換という目的を簡単に達成できます。したがって、選択した方法に関係なく、どちらのアプローチも強力なツールとして機能し、PDF からデータを構造化し抽出する方法に革命をもたらします。
役立つリンク
関連記事
次のブログにアクセスすることを強くお勧めします。