PDF de imagem para PDF pesquisável

Converter PDF de imagem em PDF pesquisável

Para arquivamento de longo prazo de livros/documentos, uma das abordagens mais rápidas é digitalizá-los como imagens. Além disso, caso você precise mantê-las como livreto, todas as imagens podem ser combinadas em um documento PDF unificado. Mas, se um documento PDF for composto de imagens, é realmente difícil copiar/extrair qualquer informação textual para posterior manipulação. Portanto, neste artigo, discutiremos os detalhes sobre como fazer o OCR de arquivos PDF e converter PDF não pesquisável em PDF pesquisável usando Java Cloud SDK.

OCR PDF Java SDK

Para criar, manipular e transformar arquivos PDF em vários formatos suportados, desenvolvemos Aspose.PDF Cloud. Agora, para implementar o OCR PDF Free no aplicativo Java, precisamos tentar usar Aspose.PDF Cloud SDK for Java que é um wrapper em torno da Java Cloud API. Agora, a primeira etapa no uso do SDK é sua instalação. Portanto, adicione os seguintes detalhes em pom.xml do projeto de tipo de compilação maven.

<repositories> 
    <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>http://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-pdf-cloud</artifactId>
        <version>21.11.0</version>
    </dependency>
</dependencies>

Depois que a referência JDK for adicionada, crie uma conta gratuita no Aspose Cloud. Faça login usando a conta recém-criada e procure/crie ID do cliente e Segredo do cliente em Cloud Dashboard. Esses detalhes são necessários nas seções subsequentes.

PDF digitalizado para PDF pesquisável usando Java

Esta seção explica os detalhes sobre como converter PDF digitalizado em PDF pesquisável usando o trecho de código Java. Observe que o Java Cloud SDK suporta o reconhecimento dos seguintes idiomas: eng, ara, bel, ben, bul, ces, dan, deu, ell, fin, fra, heb, hin, ind, isl, ita, jpn, kor, nld , nor, pol, por, ron, rus, spa, swe, tha, tur, ukr, vie, chisim, chitra ou sua combinação, por exemplo, eng,rus.

  • A primeira etapa é criar um objeto PdfApi que usa ClientID e detalhes do segredo do cliente como argumentos
  • Em segundo lugar, crie uma instância de arquivo para carregar o PDF OCR
  • Em terceiro lugar, chame o método uploadFile(…) para carregar o PDF de entrada para o armazenamento em nuvem
  • Como nossa imagem PDF contém texto em inglês, precisamos criar um objeto de string contendo o valor “eng”
  • Por fim, chame o método putSearchableDocument(…) que requer PDF de entrada e código de idioma como argumentos. O PDF pesquisável resultante é armazenado no mesmo armazenamento em nuvem
try
    {
    // Obtenha ClientID e ClientSecret em https://dashboard.aspose.cloud/
    String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
    String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
	  
    // instância createPdfApi
    PdfApi pdfApi = new PdfApi(clientSecret,clientId);
	    				
    // imagem de entrada documento PDF
    String name = "ScannedPDF.pdf";	        
	    			    
    // Carregar o arquivo do sistema local
    File file = new File(name);
    // fazer upload do arquivo para armazenamento em nuvem
    FilesUploadResult uploadResponse = pdfApi.uploadFile(name, file, null);
	    				
    // os idiomas usados na imagem PDF
    String lang = "eng";
	    				
    //  execute o OCR no documento PDF da imagem
    AsposeResponse response = pdfApi.putSearchableDocument(name, null, null, lang);
	    
    // imprimir mensagem de sucesso
    System.out.println("OCR PDF successfull !");
    }catch(Exception ex)
    {
        System.out.println(ex.getMessage());
    }
PDF de imagem para PDF pesquisável

Image1:- Visualização de PDF pesquisável

O PDF digitalizado usado no exemplo acima pode ser baixado de BusinessReport.pdf e o PDF pesquisável resultante de Converted.pdf

OCR on-line usando comandos cURL

Os comandos cURL estão entre as abordagens convenientes para acessar APIs REST por meio do terminal de linha de comando. Portanto, nesta seção, usaremos os comandos cURL para OCR online. Agora, como pré-requisito, precisamos primeiro gerar um token de acesso JWT (com base nas credenciais do cliente) ao executar o seguinte comando.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Assim que tivermos o token JWT, execute o seguinte comando para executar o OCR online e converter o PDF de imagem em um documento PDF pesquisável. O arquivo resultante é armazenado em armazenamento em nuvem.

curl -v -X GET "https://api.aspose.cloud/v4.0/words/Resultant.docx?format=TIFF&outPath=converted.tiff" \
-H  "accept: application/octet-stream" \
-H  "Authorization: Bearer <JWT Token>"

Conclusão

Neste artigo, discutimos algumas etapas simples, mas surpreendentes, para converter PDF de imagem em PDF pesquisável usando Java Cloud SDK. Portanto, temos a opção de usar o trecho de código Java ou os comandos cURL para realizar o OCR PDF. Além dessa abordagem, você pode considerar acessar a API no navegador da Web por meio da interface de arrogância. Além disso, como nossos SDKs são construídos sob uma licença MIT, o código-fonte completo pode ser baixado do GitHub. Caso encontre algum problema ao usar as APIs, sinta-se à vontade para entrar em contato conosco por meio do fórum de suporte ao produto.

Artigos relacionados

É altamente recomendável visitar os links a seguir para saber mais sobre: