Онлайн-распознавание PDF-файлов | Преобразование отсканированных PDF-файлов в доступные для поиска PDF-файлы

Отсканированный PDF-файл с возможностью поиска

Изображения являются одним из неотъемлемых компонентов для обмена данными, и некоторые приложения напрямую отображают исходный контент в формате PDF. Но это удобство увеличивает стоимость, когда нам приходится искать определенный контент внутри документа. В этом сценарии приходится вручную просматривать весь документ, чтобы найти нужную информацию. Поэтому рекомендуемый подход всегда заключается в создании файлов, которые можно искать и которыми легко управлять. Однако, если вы получили файлы PDF, в которых вы не можете контролировать формат документов в источнике, поэтому для архивации и индексации данных нам необходимо преобразовать такие документы в формат, доступный для поиска. В этой статье мы рассмотрим подробности того, как выполнять онлайн-распознавание PDF-файлов и преобразовывать отсканированные/изображения PDF-файлов в доступные для поиска/текстовые PDF-документы.

API обработки PDF-файлов
Распознавание текста в PDF с помощью команды cURL
Преобразование отсканированного PDF-файла в файл с возможностью поиска в Java

API обработки PDF-файлов

Aspose.PDF Cloud — это наш отмеченный наградами API для создания и обработки PDF-файлов на основе архитектуры REST. Используя тот же API, вы можете выполнять различные операции, такие как Конвертировать EPUB в PDF, Конвертировать HTML в PDF, Конвертировать XPS в PDF, Конвертировать DOC и Doc X в PDF, Конвертировать XPS в PDF, вставлять изображения в новые или существующие файлы PDF и т. д. Все эти операции выполняются в облаке, и поэтому доступ к API можно получить с любой платформы.

Распознавание текста в PDF с помощью команды cURL

Команды cURL — это простой способ доступа к Aspose.PDF Cloud через терминал командной строки. Но перед доступом к API вам необходимо сначала посетить панель управления Aspose.Cloud и, если у вас есть учетная запись GitHub или Google, просто зарегистрироваться. В противном случае нажмите кнопку Создать новую учетную запись и укажите необходимую информацию. Теперь войдите в панель управления, используя учетные данные, разверните раздел «Приложения» на панели управления и прокрутите вниз до раздела «Учетные данные клиента», чтобы увидеть сведения об идентификаторе клиента и секретном ключе клиента.

Теперь следующим шагом будет генерация JSON Web Token (JWT), чтобы API были доступны через командную строку.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=a41d01ef-dfd5-4e02-ad29-bd85fe41e3e4&client_secret=d87269aade6a46cdc295b711e26809af" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Получив токен JWT, выполните следующую команду cURL в терминале командной строки.

curl -X PUT "https://api.aspose.cloud/v3.0/pdf/ocrscan.pdf/ocr?lang=eng" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>"

Преобразование отсканированного PDF-файла в файл с возможностью поиска в Java

Для того, чтобы облегчить работу наших Java-программистов, была создана оболочка вокруг Aspose.PDF Cloud, чтобы все функции Cloud API могли быть легко доступны в коде Java. Аналогично, чтобы выполнить операцию OCR на отсканированном PDF, нам нужно использовать Aspose.PDF Cloud SDK for Java.

Итак, первым шагом является установка SKD в системе. Cloud SDK доступен для загрузки через Maven и GitHub. Теперь добавьте следующие данные в ваш файл pom.xml для загрузки и использования Aspose.Pdf.jar в вашем проекте сборки Maven.

<repositories>
 <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>https://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>
<dependencies>
 <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-pdf-cloud</artifactId>
        <version>21.1.0</version>
        <scope>compile</scope>
    </dependency>
 </dependencies>

Для получения дополнительной информации посетите страницу Как установить Aspose.Cloud SDK.

Приведенные ниже шаги определяют процесс операции COR над файлом изображения PDF.

Первым шагом является создание объекта PdfApi с передачей ClientID и секретных данных клиента (доступных на панели управления Aspose.Cloud).
Создайте экземпляр File и передайте местоположение файла изображения в качестве аргумента.
Вызовите метод uploadFile(…) и передайте PDF-документ и экземпляр файла в качестве аргументов.
Следующим шагом является создание экземпляра строки и присвоение его значению кода языка, который содержится в исходном файле, например «rus,eng».
Наконец, вызовите метод putSearchableDocument(…) PdfApi и передайте имя входного PDF-файла и код языка в качестве аргументов.

языки для движка OCR. поддерживаемые значения: eng, ara, bel, ben, bul, ces, dan, deu, ell, fin, fra, heb, hin, ind, isl, ita, jpn, kor, nld, nor, pol, por, ron, rus, spa, swe, tha, tur, ukr, vie, chisim, chitra или их комбинации, например eng,rus.

// Получите ClientID и ClientSecret с https://dashboard.aspose.cloud/
String clientId = "a41d01ef-dfd5-4e02-ad29-bd85fe41e3e4";
String clientSecret = "d87269aade6a46cdc295b711e26809af";
				
// экземпляр createPdfApi
PdfApi pdfApi = new PdfApi(clientSecret,clientId);
				
// входной PDF-документ
String name = "ocrscan.pdf";	        
			    
// Загрузить файл из локальной системы
File file = new File("/Users/nayyershahbaz/Downloads/" + name);
// загрузить файл в облачное хранилище
FilesUploadResult uploadResponse = pdfApi.uploadFile(name, file, null);
				
// языки, используемые в файле изображения
String lang = "rus,eng";
				
//  выполнить OCR на изображении PDF документа
AsposeResponse response = pdfApi.putSearchableDocument(name, null, null, lang);
assertEquals(200, (int)response.getCode());

Изображение 1: Предварительный просмотр результата OCR.

Образцы PDF-файлов, использованные в приведенном выше примере, можно загрузить по следующим ссылкам:

Заключение

В этой статье мы узнали несколько простых шагов о том, как выполнить онлайн-операцию PDF OCR и преобразовать отсканированный PDF-документ в доступный для поиска PDF-документ. Помимо операций OCR, SDK довольно мощный и может выполнять множество других операций. Для получения более подробной информации посетите Aspose.PDF Cloud Features.

API обработки PDF-файлов#

Распознавание текста в PDF с помощью команды cURL#

Преобразование отсканированного PDF-файла в файл с возможностью поиска в Java#

Заключение#

API обработки PDF-файлов

Распознавание текста в PDF с помощью команды cURL

Преобразование отсканированного PDF-файла в файл с возможностью поиска в Java

Заключение