今日のデジタル世界では、膨大な量のデータが氾濫しており、その多くは PDF 形式で保存されています。ただし、すべての PDF が同じように作成されているわけではなく、多くは検索や編集が難しい単純な画像ベースのファイルです。ここで、OCR (光学式文字認識) の出番です。OCR の機能を使用すると、画像ベースの PDF を検索可能な PDF に簡単に変換でき、検索、編集、共有が容易になります。このブログでは、OCR を使用して Java を使用して画像 PDF を検索可能な PDF に変換する方法について説明します。
オンラインで OCR を実行します。Python SDK を使用して画像をテキストに変換します。
光学式文字認識は、ラスター画像上のコンテンツを認識するスマートな方法です。古いアーカイブ文献をデジタル形式で保存する必要がある場合、さらに便利になります。この記事では、さまざまな画像形式で OCR をオンラインで実行します。クラウド API は、英語、フランス語、ドイツ語、イタリア語、ポルトガル語、スペイン語を認識できます。