PDF digitalizado para pesquisável

As imagens são um dos componentes integrais para compartilhamento de dados e alguns aplicativos renderizam diretamente o conteúdo de origem em formato PDF. Mas essa conveniência aumenta o custo quando temos que pesquisar determinado conteúdo dentro do documento. Nesse cenário, é preciso percorrer todo o documento manualmente para encontrar as informações relevantes. Portanto, a abordagem recomendada é sempre gerar arquivos que sejam pesquisáveis e fáceis de gerenciar. No entanto, se você recebeu os arquivos PDF onde não pode controlar o formato dos documentos na origem, para arquivamento e indexação de dados, precisamos converter esses documentos em um formato pesquisável. Neste artigo, discutiremos os detalhes sobre como executar OCR de PDF online e converter arquivos PDF digitalizados/de imagem em documentos PDF pesquisáveis/de texto.

API de processamento de PDF

Aspose.PDF Cloud é nossa premiada API de criação e manipulação de PDF baseada em arquitetura REST. Usando a mesma API, você pode executar uma variedade de operações, como Converter EPUB para PDF, Converter HTML para PDF, Converter XPS para PDF, Converter DOC e Doc X para PDF, Converter XPS para PDF, inserir imagens em arquivos PDF novos ou existentes, etc. Todas essas operações são executadas na nuvem e, portanto, a API pode ser acessada de qualquer plataforma.

OCR de PDF usando o comando cURL

Os comandos cURL são uma maneira fácil de acessar o Aspose.PDF Cloud por meio do terminal de linha de comando. Mas antes de acessar as APIs, você precisa primeiro visitar o painel do Aspose.Cloud e, se tiver uma conta GitHub ou Google, basta se inscrever. Caso contrário, clique no botão Criar uma nova conta e forneça as informações necessárias. Agora, faça login no painel usando credenciais e expanda a seção Aplicativos do painel e role para baixo em direção à seção Credenciais do cliente para ver os detalhes do ID do cliente e do segredo do cliente.

Agora, o próximo passo é gerar o JSON Web Token (JWT) para que as APIs sejam acessíveis pelo prompt de comando.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=a41d01ef-dfd5-4e02-ad29-bd85fe41e3e4&client_secret=d87269aade6a46cdc295b711e26809af" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Depois que tivermos o token JWT, execute o seguinte comando cURL no terminal de linha de comando.

curl -X PUT "https://api.aspose.cloud/v3.0/pdf/ocrscan.pdf/ocr?lang=eng" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>"

Converter PDF digitalizado em pesquisável em Java

Para facilitar nossos programadores Java, um wrapper em torno do Aspose.PDF Cloud foi criado para que todos os recursos da Cloud API possam ser facilmente acessados no código Java. Da mesma forma, para executar a operação de OCR em PDF digitalizado, precisamos usar Aspose.PDF Cloud SDK para Java.

Então, o primeiro passo é instalar o SKD no sistema. O Cloud SDK está disponível para download no Maven e GitHub. Agora adicione os seguintes detalhes no seu arquivo pom.xml para baixar e usar Aspose.Pdf.jar no seu projeto de build Maven.

<repositories>
 <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>https://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>
<dependencies>
 <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-pdf-cloud</artifactId>
        <version>21.1.0</version>
        <scope>compile</scope>
    </dependency>
 </dependencies>

Para obter mais informações, visite Como instalar os SDKs do Aspose.Cloud.

As etapas abaixo definem o processo de operação COR no arquivo PDF de imagem.

  • O primeiro passo é criar um objeto PdfApi enquanto passa os detalhes do ClientID e do segredo do cliente (disponíveis no painel do Aspose.Cloud).
  • Crie uma instância de File e passe a localização do arquivo de imagem como argumento.
  • Chame o método uploadFile(…) e passe o documento PDF e a instância do arquivo como argumentos.
  • O próximo passo é criar uma instância de string e definir seu valor para o código de idioma que o arquivo de origem contém, ou seja, “rus,eng”.
  • Por fim, chame o método putSearchableDocument(…) do PdfApi e passe o nome do arquivo PDF de entrada e o código do idioma como argumentos.

idiomas para mecanismo de OCR. Valores suportados: eng, ara, bel, ben, bul, ces, dan, deu, ell, fin, fra, heb, hin, ind, isl, ita, jpn, kor, nld, nor, pol, por, ron, rus, spa, swe, tha, tur, ukr, vie, chisim, chitra ou sua combinação, por exemplo, eng, rus.

// Obtenha ClientID e ClientSecret de https://dashboard.aspose.cloud/
String clientId = "a41d01ef-dfd5-4e02-ad29-bd85fe41e3e4";
String clientSecret = "d87269aade6a46cdc295b711e26809af";
				
// instância createPdfApi
PdfApi pdfApi = new PdfApi(clientSecret,clientId);
				
// documento PDF de entrada
String name = "ocrscan.pdf";	        
			    
// Carregue o arquivo do sistema local
File file = new File("/Users/nayyershahbaz/Downloads/" + name);
// carregue o arquivo para o armazenamento em nuvem
FilesUploadResult uploadResponse = pdfApi.uploadFile(name, file, null);
				
// os idiomas usados no arquivo de imagem
String lang = "rus,eng";
				
//  executar o OCR no documento PDF de imagem
AsposeResponse response = pdfApi.putSearchableDocument(name, null, null, lang);
assertEquals(200, (int)response.getCode());
Prévia do resultado do OCR

Imagem 1:- Visualização da saída do OCR.

Os arquivos PDF de amostra usados no exemplo acima podem ser baixados nos seguintes links:

Conclusão

Neste artigo, aprendemos alguns passos simples sobre como executar a operação de OCR de PDF online e converter o documento PDF digitalizado em um documento PDF pesquisável. Além das operações de OCR, o SDK é bastante poderoso e pode executar uma variedade de outras operações. Para mais detalhes, visite Recursos do Aspose.PDF Cloud.