
Pythonを使用してPDFをHTMLに変換する方法を学ぶ
今日の急速に変化するデジタルの世界では、文書のアクセシビリティは企業にとっても個人にとっても重要な考慮事項です。PDF 文書を HTML に変換する必要性は、これまでになく高まっています。PDF ファイルは文書の書式設定を保持するのに優れていますが、Web 上で操作するのは面倒な場合があります。PDF ファイルは、現代のオンライン エクスペリエンスに必要な対話性と適応性に欠けていることがよくあります。そこで、Python REST API がそのギャップを埋める役割を果たします。この記事では、PDF から HTML への変換に対する需要の高まりと、Python REST API がこのプロセスに革命をもたらす方法について説明します。
PDF から HTML への変換のための Python REST API
PDF ドキュメントを HTML 形式に変換する作業は、Aspose.PDF Cloud SDK for Python を使用すると簡単かつ効率的に行えます。この強力な SDK は、PDF から HTML への変換の課題にシームレスに取り組むためのさまざまな機能を提供します。ドキュメントを Web 上で表示する必要がある場合、さまざまなプラットフォーム間でコンテンツを共有する必要がある場合、またはドキュメントのアクセシビリティを強化する必要がある場合でも、Aspose.PDF Cloud が対応します。
Python Cloud SDKは、PDFファイルを作成、編集、またはEPUB、PS、SVG、XLSX、PPTX、DOCX、HTMLなどのさまざまな形式に変換する機能を備えています。
SDKはPIPおよびGitHubリポジトリからダウンロードできます。ターミナル/コマンドプロンプトで次のコマンドを実行して、システムに最新バージョンのSDKをインストールしてください。
pip install asposepdfcloud
Visual Studio IDE 内の Python プロジェクトに参照を直接追加する必要がある場合は、Python 環境ウィンドウで asposepdfcloud をパッケージとして検索してください。インストール プロセスを完了するには、下の画像に番号が付けられた手順に従ってください。

画像 1: PDF から HTML への変換 API。
PythonでPDFをHTMLに変換する
PDF を HTML 形式に変換するには、以下の手順に従ってください。
- まず、ClinetID とクライアント シークレットの詳細を引数として渡しながら、ApiClient クラスのインスタンスを作成します。
- 次に、ApiClient オブジェクトを引数として渡す PdfApi のオブジェクトを作成します。
- 3 番目に、入力 PDF の名前と結果の出力を指定します。
- 最後に、PdfApi クラスの putpdfinstoragetohtml(…) メソッドを呼び出して変換を開始します。出力はクラウド ストレージに保存されます。
# 完全なコードサンプルについては、https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-python をご覧ください。
import asposepdfcloud
import asposepdfcloud.models
import asposepdfcloud.api_client
from asposepdfcloud import PdfApi
def pdf2html():
try:
#initialize PdfApi client instance using ClientID and ClientSecret
pdf_api_client = asposepdfcloud.api_client.ApiClient("406b404b2df649611e508bbcfcd2a77f", "88d1cda8-b12c-4a80-b1ad-c85ac483c5c5")
# PdfApiClient を引数として渡しながら PdfApi インスタンスを作成します。
pdf_api = PdfApi(pdf_api_client)
# ソースPDFドキュメント
input_file_name = 'completeWorkbook.pdf'
# 結果ファイルの名前
resultant_file_name = 'CodeConversion.zip'
# 変換を実行するためにAPIを呼び出す
# 出力形式をzip、ドキュメントタイプをxhtmlに設定しました。
response = pdf_api.put_pdf_in_storage_to_html(input_file_name,fixed_layout='true', split_into_pages='false', document_type='Xhtml', output_format='zip',out_path=resultant_file_name)
# コンソールにメッセージを出力する(オプション)
print('PDF successfully converted to HTML format !')
except ApiException as e:
print("Exception while calling PdfApi: {0}".format(e))
cURL コマンドを使用して PDF を HTML に変換する
あるいは、cURL コマンドを Aspose.PDF Cloud と組み合わせて使用することで、PDF から HTML への変換を効率化することもできます。このアプローチは、PDF から HTML への変換のニーズに Aspose.PDF Cloud の機能を活用する便利な方法を提供します。このアプローチは、シームレスな PDF から HTML への変換プロセスを実装するためのプラットフォームや言語に依存しないアプローチを探している場合の要件に最適です。
まず、クライアントの資格情報に基づいて JWT アクセス トークンを生成する必要があります。JWT トークンを生成するには、次のコマンドを実行してください。
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=88d1cda8-b12c-4a80-b1ad-c85ac483c5c5&client_secret=406b404b2df649611e508bbcfcd2a77f" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
JWT トークンを取得したら、次のコマンドを実行して、クラウド ストレージにある PDF ファイルを HTML 形式に変換し、その結果、出力がストリーム応答として返されます。
curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/awesomeTable.pdf/convert/html?documentType=Xhtml&fixedLayout=true&splitCssIntoPages=false&splitIntoPages=false&fontSavingMode=AlwaysSaveAsTTF" \
-H "accept: multipart/form-data" \
-H "authorization: Bearer <JWT Token>" \
-o .\Documents\PDFConversion.zip
PDF ファイルを HTML に変換し、出力をクラウド ストレージに保存する必要がある場合は、次のコマンドを使用してみてください。
curl -v -X PUT "https://api.aspose.cloud/v3.0/pdf/completeWorkbook.pdf/convert/html?outPath=converted.html&fixedLayout=true&splitIntoPages=false&outputFormat=Zip" \
-H "accept: application/json" \
-H "authorization: Bearer <JWT Token>"

画像 2: PDF から HTML への変換プレビュー。
結論
結論として、PDF から HTML への移行はこれまでになくスムーズになりました。PDF ドキュメントを動的な Web 対応 HTML に変換する際の Python REST API の変換力と、cURL コマンドを使用した Aspose.PDF Cloud の効率性について説明しました。これらの方法は、ドキュメントの整合性を保証するだけでなく、アクセシビリティと共有性も向上させます。今こそ、コンテンツをより幅広いユーザーが利用できるようにし、オンラインでの存在感を高めるときです。
APIの使用中に問題が発生した場合、またはその他の質問がある場合は、無料の製品サポートフォーラムからお気軽にお問い合わせください。
関連記事
詳細については、次のリンクにアクセスすることを強くお勧めします。