
Изображения являются одним из неотъемлемых компонентов для обмена данными, и некоторые приложения напрямую отображают исходный контент в формате PDF. Но это удобство увеличивает стоимость, когда нам приходится искать определенный контент внутри документа. В этом сценарии приходится вручную просматривать весь документ, чтобы найти нужную информацию. Поэтому рекомендуемый подход всегда заключается в создании файлов, которые можно искать и которыми легко управлять. Однако, если вы получили файлы PDF, в которых вы не можете контролировать формат документов в источнике, поэтому для архивации и индексации данных нам необходимо преобразовать такие документы в формат, доступный для поиска. В этой статье мы рассмотрим подробности того, как выполнять онлайн-распознавание PDF-файлов и преобразовывать отсканированные/изображения PDF-файлов в доступные для поиска/текстовые PDF-документы.
- API обработки PDF-файлов
- Распознавание текста в PDF с помощью команды cURL
- Преобразование отсканированного PDF-файла в файл с возможностью поиска в Java
API обработки PDF-файлов
Aspose.PDF Cloud — это наш отмеченный наградами API для создания и обработки PDF-файлов на основе архитектуры REST. Используя тот же API, вы можете выполнять различные операции, такие как Конвертировать EPUB в PDF, Конвертировать HTML в PDF, Конвертировать XPS в PDF, Конвертировать DOC и Doc X в PDF, Конвертировать XPS в PDF, вставлять изображения в новые или существующие файлы PDF и т. д. Все эти операции выполняются в облаке, и поэтому доступ к API можно получить с любой платформы.
Распознавание текста в PDF с помощью команды cURL
Команды cURL — это простой способ доступа к Aspose.PDF Cloud через терминал командной строки. Но перед доступом к API вам необходимо сначала посетить панель управления Aspose.Cloud и, если у вас есть учетная запись GitHub или Google, просто зарегистрироваться. В противном случае нажмите кнопку Создать новую учетную запись и укажите необходимую информацию. Теперь войдите в панель управления, используя учетные данные, разверните раздел «Приложения» на панели управления и прокрутите вниз до раздела «Учетные данные клиента», чтобы увидеть сведения об идентификаторе клиента и секретном ключе клиента.
Теперь следующим шагом будет генерация JSON Web Token (JWT), чтобы API были доступны через командную строку.
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=a41d01ef-dfd5-4e02-ad29-bd85fe41e3e4&client_secret=d87269aade6a46cdc295b711e26809af" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
Получив токен JWT, выполните следующую команду cURL в терминале командной строки.
curl -X PUT "https://api.aspose.cloud/v3.0/pdf/ocrscan.pdf/ocr?lang=eng" \
-H "accept: application/json" \
-H "authorization: Bearer <JWT Token>"
Преобразование отсканированного PDF-файла в файл с возможностью поиска в Java
Для того, чтобы облегчить работу наших Java-программистов, была создана оболочка вокруг Aspose.PDF Cloud, чтобы все функции Cloud API могли быть легко доступны в коде Java. Аналогично, чтобы выполнить операцию OCR на отсканированном PDF, нам нужно использовать Aspose.PDF Cloud SDK for Java.
Итак, первым шагом является установка SKD в системе. Cloud SDK доступен для загрузки через Maven и GitHub. Теперь добавьте следующие данные в ваш файл pom.xml для загрузки и использования Aspose.Pdf.jar в вашем проекте сборки Maven.
<repositories>
<repository>
<id>aspose-cloud</id>
<name>artifact.aspose-cloud-releases</name>
<url>https://artifact.aspose.cloud/repo</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf-cloud</artifactId>
<version>21.1.0</version>
<scope>compile</scope>
</dependency>
</dependencies>
Для получения дополнительной информации посетите страницу Как установить Aspose.Cloud SDK.
Приведенные ниже шаги определяют процесс операции COR над файлом изображения PDF.
- Первым шагом является создание объекта PdfApi с передачей ClientID и секретных данных клиента (доступных на панели управления Aspose.Cloud).
- Создайте экземпляр File и передайте местоположение файла изображения в качестве аргумента.
- Вызовите метод uploadFile(…) и передайте PDF-документ и экземпляр файла в качестве аргументов.
- Следующим шагом является создание экземпляра строки и присвоение его значению кода языка, который содержится в исходном файле, например «rus,eng».
- Наконец, вызовите метод putSearchableDocument(…) PdfApi и передайте имя входного PDF-файла и код языка в качестве аргументов.
языки для движка OCR. поддерживаемые значения: eng, ara, bel, ben, bul, ces, dan, deu, ell, fin, fra, heb, hin, ind, isl, ita, jpn, kor, nld, nor, pol, por, ron, rus, spa, swe, tha, tur, ukr, vie, chisim, chitra или их комбинации, например eng,rus.
// Получите ClientID и ClientSecret с https://dashboard.aspose.cloud/
String clientId = "a41d01ef-dfd5-4e02-ad29-bd85fe41e3e4";
String clientSecret = "d87269aade6a46cdc295b711e26809af";
// экземпляр createPdfApi
PdfApi pdfApi = new PdfApi(clientSecret,clientId);
// входной PDF-документ
String name = "ocrscan.pdf";
// Загрузить файл из локальной системы
File file = new File("/Users/nayyershahbaz/Downloads/" + name);
// загрузить файл в облачное хранилище
FilesUploadResult uploadResponse = pdfApi.uploadFile(name, file, null);
// языки, используемые в файле изображения
String lang = "rus,eng";
// выполнить OCR на изображении PDF документа
AsposeResponse response = pdfApi.putSearchableDocument(name, null, null, lang);
assertEquals(200, (int)response.getCode());

Изображение 1: Предварительный просмотр результата OCR.
Образцы PDF-файлов, использованные в приведенном выше примере, можно загрузить по следующим ссылкам:
Заключение
В этой статье мы узнали несколько простых шагов о том, как выполнить онлайн-операцию PDF OCR и преобразовать отсканированный PDF-документ в доступный для поиска PDF-документ. Помимо операций OCR, SDK довольно мощный и может выполнять множество других операций. Для получения более подробной информации посетите Aspose.PDF Cloud Features.