Изображение PDF в PDF с возможностью поиска

Преобразование PDF-файла изображения в PDF-файл с возможностью поиска

Для долгосрочного архивирования книг/документов одним из самых быстрых способов является их сканирование в виде изображений. Кроме того, если вам нужно сохранить их в виде буклета, все изображения можно объединить в единый документ PDF. Но если PDF-документ состоит из изображений, очень сложно скопировать/извлечь любую текстовую информацию для дальнейшей обработки. Итак, в этой статье мы подробно обсудим, как распознавать PDF-файлы и преобразовывать PDF-файлы без возможности поиска в PDF-файлы с возможностью поиска с помощью Java Cloud SDK.

OCR PDF Java SDK

Чтобы создавать, обрабатывать и преобразовывать PDF-файлы в различные поддерживаемые форматы, мы разработали Aspose.PDF Cloud. Теперь, чтобы реализовать OCR PDF Free в приложении Java, нам нужно попробовать использовать Aspose.PDF Cloud SDK для Java, который является оболочкой Java Cloud API. Теперь первым шагом в использовании SDK является его установка. Поэтому, пожалуйста, добавьте следующие детали в pom.xml проекта типа сборки maven.

<repositories> 
    <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>http://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-pdf-cloud</artifactId>
        <version>21.11.0</version>
    </dependency>
</dependencies>

После добавления ссылки на JDK создайте бесплатную учетную запись в Aspose Cloud. Войдите в систему, используя только что созданную учетную запись, и найдите/создайте идентификатор клиента и секрет клиента на Cloud Dashboard. Эти детали потребуются в последующих разделах.

Отсканированный PDF в PDF с возможностью поиска с использованием Java

В этом разделе объясняется, как преобразовать отсканированный PDF-файл в PDF-файл с возможностью поиска с помощью фрагмента кода Java. Обратите внимание, что Java Cloud SDK поддерживает распознавание следующих языков: eng, ara, bel, ben, bul, ces, dan, deu, ell, fin, fra, heb, hin, ind, isl, ita, jpn, kor, nld. , нор, пол, пор, рон, рус, спа, шве, та, тур, укр, ви, чисим, читра или их комбинация, например, англ, рус.

  • Первым шагом является создание объекта PdfApi, который принимает ClientID и данные секрета клиента в качестве аргументов.
  • Во-вторых, создайте экземпляр файла для загрузки OCR PDF.
  • В-третьих, вызовите метод uploadFile(…) для загрузки входного PDF-файла в облачное хранилище.
  • Поскольку наше изображение PDF содержит текст на английском языке, нам нужно создать строковый объект со значением «eng».
  • Наконец, вызовите метод putSearchableDocument(…), требующий ввода PDF и кода языка в качестве аргументов. Полученный PDF-файл с возможностью поиска хранится в том же облачном хранилище.
try
    {
    // Получите ClientID и ClientSecret с https://dashboard.aspose.cloud/
    String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
    String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
	  
    // экземпляр createPdfApi
    PdfApi pdfApi = new PdfApi(clientSecret,clientId);
	    				
    // входное изображение PDF-документ
    String name = "ScannedPDF.pdf";	        
	    			    
    // Загрузите файл из локальной системы
    File file = new File(name);
    // загрузить файл в облачное хранилище
    FilesUploadResult uploadResponse = pdfApi.uploadFile(name, file, null);
	    				
    // языки, используемые в изображении PDF
    String lang = "eng";
	    				
    //  выполнить OCR на изображении PDF-документа
    AsposeResponse response = pdfApi.putSearchableDocument(name, null, null, lang);
	    
    // распечатать сообщение об успешном завершении
    System.out.println("OCR PDF successfull !");
    }catch(Exception ex)
    {
        System.out.println(ex.getMessage());
    }
Изображение PDF в PDF с возможностью поиска

Изображение 1: предварительный просмотр PDF с возможностью поиска

Отсканированный PDF-файл, использованный в приведенном выше примере, можно загрузить из BusinessReport.pdf, а результирующий PDF-файл с возможностью поиска из Converted.pdf.

OCR онлайн с использованием команд cURL

Команды cURL являются одними из удобных подходов для доступа к REST API через терминал командной строки. Итак, в этом разделе мы собираемся использовать команды cURL для OCR в Интернете. Теперь в качестве предварительного условия нам нужно сначала сгенерировать токен доступа JWT (на основе учетных данных клиента) при выполнении следующей команды.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Как только у нас будет токен JWT, выполните следующую команду, чтобы выполнить распознавание символов онлайн и преобразовать PDF-файл изображения в PDF-документ с возможностью поиска. Полученный файл затем сохраняется в облачном хранилище.

curl -v -X GET "https://api.aspose.cloud/v4.0/words/Resultant.docx?format=TIFF&outPath=converted.tiff" \
-H  "accept: application/octet-stream" \
-H  "Authorization: Bearer <JWT Token>"

Вывод

В этой статье мы обсудили несколько простых, но удивительных шагов по преобразованию PDF-файла изображения в PDF-файл с возможностью поиска с помощью Java Cloud SDK. Таким образом, мы получаем возможность использовать фрагмент кода Java или команды cURL для выполнения OCR PDF. Помимо этого подхода, вы можете рассмотреть возможность доступа к API в веб-браузере через интерфейс swagger. Кроме того, поскольку наши SDK создаются под лицензией MIT, полный исходный код можно загрузить с GitHub. Если у вас возникнут какие-либо проблемы при использовании API, свяжитесь с нами через форум поддержки продукта.

Статьи по Теме

Мы настоятельно рекомендуем посетить следующие ссылки, чтобы узнать больше о: