画像 PDF から検索可能な PDF

画像 PDF を検索可能な PDF に変換

今日のデータ駆動型の世界では、PDF はドキュメントの保存と共有に不可欠な形式になっています。ただし、すべての PDF、特に画像ベースの PDF が簡単に検索または編集できるわけではありません。ドキュメントを扱う場合、さらに操作するためにテキスト情報をコピー/抽出することは非常に困難です。幸いなことに、光学式文字認識 (OCR) テクノロジの機能により、画像 PDF を検索可能な PDF に簡単に変換できます。このテクニカル ブログでは、特に REST API に焦点を当てて、さまざまな手法を使用して OCR PDF を検索可能な PDF に変換する方法について説明します。また、OCR PDF からテキストを抽出する方法についても説明し、OCR テクノロジを活用して PDF ドキュメントの可能性を最大限に引き出す方法を包括的に理解できるようにします。

Java SDK を使用した OCR PDF

Aspose.PDF Cloud SDK for Java は強力なクラウドベースの API で、PDF ドキュメントを操作するための幅広い機能を提供します。その重要な機能の 1 つは、PDF で OCR を実行する機能です。これにより、画像ベースの PDF からテキストを抽出し、検索可能な PDF を作成するプロセスが大幅に簡素化されます。ユーザーフレンドリーなインターフェイスと包括的なドキュメントを備えたこの SDK により、PDF で OCR を実行するプロセスを簡単に自動化し、時間を節約して生産性を向上させることができます。

さらに、このクラウドベースの API は、さまざまな入力形式を処理するように設計されており、手書きのテキストも認識できるため、ドキュメント ワークフローの合理化を目指す企業や開発者にとって優れた選択肢となります。最初のステップは、maven ビルド プロジェクトの pom.xml に次の詳細を追加して、Java プロジェクトにその参照を追加することです。

<repositories> 
    <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>http://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-pdf-cloud</artifactId>
        <version>21.11.0</version>
    </dependency>
</dependencies>

既存のアカウントをお持ちでない場合は、Aspose Cloud で無料のアカウントを作成する必要があります。新しく作成したアカウントを使用してログインし、クラウド ダッシュボード でクライアント ID とクライアント シークレットを検索/作成します。これらの詳細は、後続のセクションで必要になります。

スキャンした PDF を Java を使用して検索可能な PDF に変換

このセクションでは、Java コード スニペットを使用して、スキャンした PDF を検索可能な PDF に変換する方法について詳しく説明します。 Java Cloud SDK は次の言語の認識をサポートしていることに注意してください: eng、ara、bel、ben、bul、ces、dan、deu、ell、fin、fra、heb、hin、ind、isl、ita、jpn、kor、nld 、nor、pol、por、ron、rus、spa、swe、tha、tur、ukr、vie、chisim、chitra、またはこれらの組み合わせ (eng、rus など)。

  • まず、PdfApi のオブジェクトを作成する必要があります。ここで、ClientID とクライアント シークレットの詳細を引数として渡します。
  • 次に、File クラスのインスタンスを作成して、イメージ PDF をロードします。
  • 3 番目に、メソッド uploadFile(…) を呼び出して、入力 PDF をクラウド ストレージにアップロードします。
  • 画像 PDF には英語のテキストが含まれているため、値「eng」を保持する文字列オブジェクトを作成する必要があります。
  • 最後に、入力 PDF と言語コードを引数として必要とする putSearchableDocument(…) メソッドを呼び出します。

コードが正常に実行されると、検索可能な PDF がクラウド ストレージに保存されます

try
    {
    // https://dashboard.aspose.cloud/ から ClientID と ClientSecret を取得します。
    String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
    String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
	  
    // createPdfApi インスタンス
    PdfApi pdfApi = new PdfApi(clientSecret,clientId);
	    				
    // 入力画像PDF文書
    String name = "ScannedPDF.pdf";	        
	    			    
    // ローカル システムからファイルをロードする
    File file = new File(name);
    // ファイルをクラウド ストレージにアップロードする
    FilesUploadResult uploadResponse = pdfApi.uploadFile(name, file, null);
	    				
    // 画像 PDF で使用される言語
    String lang = "eng";
	    				
    //  画像 PDF ドキュメントで OCR を実行する
    AsposeResponse response = pdfApi.putSearchableDocument(name, null, null, lang);
	    
    // 成功メッセージを出力する
    System.out.println("OCR PDF successfull !");
    }catch(Exception ex)
    {
        System.out.println(ex.getMessage());
    }
画像 PDF から検索可能な PDF

Image1:- 検索可能な PDF プレビュー

上記の例で使用されているスキャンした PDF は BusinessReport.pdf からダウンロードでき、結果の検索可能な PDF は Converted.pdf からダウンロードできます。

cURL コマンドを使用した OCR オンライン

cURL コマンドは、REST API を呼び出す便利な方法の 1 つです。したがって、このセクションでは、オンラインでの OCR に cURL コマンドを使用します。ここで、前提条件として、次のコマンドを実行しながら、まず JWT アクセス トークンを (クライアント資格情報に基づいて) 生成する必要があります。

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

JWT トークンを取得したら、次のコマンドを実行してオンラインで OCR を実行し、画像 PDF を検索可能な PDF ドキュメントに変換します。結果のファイルは、クラウド ストレージに保存されます。

curl -v -X GET "https://api.aspose.cloud/v4.0/words/Resultant.docx?format=TIFF&outPath=converted.tiff" \
-H  "accept: application/octet-stream" \
-H  "Authorization: Bearer <JWT Token>"

結論

PDF で OCR を実行することは、これらのドキュメントの可能性を最大限に引き出すための重要なプロセスです。 Aspose.PDF Cloud SDK for Java などのクラウドベースの OCR ツールを使用すると、このプロセスを簡素化および自動化して時間を節約し、生産性を向上させることができます。企業や開発者は OCR の機能を活用することで、画像ベースの PDF を検索可能な PDF に変換し、検索、編集、共有を容易にすることができます。この API が、PDF を操作するためのさまざまな強力な機能を提供していることは明らかです。このテクニカル ブログで提供されているステップバイステップ ガイドに従うことで、PDF の OCR を開始し、ドキュメント ワークフローを次のレベルに引き上げることができます。

swagger インターフェイス を使用して、Web ブラウザー内で API にアクセスすることを検討してください。さらに、SDK は MIT ライセンスの下で構築されているため、GitHub から完全なソース コードをダウンロードできます。 API の使用中に問題が発生した場合は、無料の製品サポート フォーラム からお気軽にお問い合わせください。

関連記事

詳細については、次のリンクにアクセスすることを強くお勧めします。