Um arquivo PDF geralmente é composto de Texto, Imagem, Cabeçalho, Anotações e outros elementos. E como esse formato preserva o layout do documento entre plataformas (Desktop/Mobile etc), por isso é muito utilizado para compartilhar informações pela internet. No entanto, podemos ter um requisito para extrair o conteúdo textual do documento PDF para processamento posterior. Portanto, neste artigo, discutiremos os detalhes de como extrair texto de PDF usando o Java Cloud SDK. Quando a operação estiver concluída, a saída é salva no formato TXT.
API de conversão de PDF para TXT
Aspose.PDF Cloud SDK for Java é nossa premiada solução REST API que oferece recursos para criar, editar e converter PDF para JPG, XPS, HTML, DOCX e vários outros formatos compatíveis. Agora, para implementar os recursos de reconhecimento de texto em PDF no aplicativo Java, adicione os seguintes detalhes em pom.xml do projeto de tipo de compilação maven.
<repositories>
<repository>
<id>aspose-cloud</id>
<name>artifact.aspose-cloud-releases</name>
<url>http://artifact.aspose.cloud/repo</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf-cloud</artifactId>
<version>21.11.0</version>
</dependency>
</dependencies>
Após a instalação do SDK, o próximo passo importante é a criação de uma conta gratuita no Aspose Cloud. Portanto, faça o login usando a conta recém-criada e procure/crie ID do cliente e Segredo do cliente em Cloud Dashboard. Esses detalhes são necessários nas seções subsequentes.
PDF para Texto em Java
Siga as etapas abaixo para realizar a conversão de PDF para texto usando Java Cloud SDK. Portanto, após a conversão bem-sucedida, o arquivo TXT resultante é salvo no armazenamento em nuvem.
- Primeiro, precisamos criar um objeto PdfApi enquanto fornecemos ClientID e Client secret como argumentos
- Em segundo lugar, carregue o arquivo PDF de entrada usando a instância de arquivo
- Carregue o PDF de entrada para o armazenamento em nuvem usando o método uploadFile(…)
- Crie uma variável Integer especificando o número da página do PDF para extração de texto e instâncias Double indicando a região retangular da página da qual precisamos extrair o conteúdo textual
- Por fim, chame o método getPageText(…) para buscar o conteúdo textual do PDF de entrada
try
{
// Obtenha ClientID e ClientSecret em https://dashboard.aspose.cloud/
String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
// criar uma instância de PdfApi
PdfApi pdfApi = new PdfApi(clientSecret,clientId);
// nome do documento PDF de entrada
String inputFile = "marketing.pdf";
// leia o conteúdo do arquivo PDF de entrada
File file = new File("//Users//"+inputFile);
// carregar PDF para armazenamento em nuvem
pdfApi.uploadFile("input.pdf", file, null);
// página específica de PDF para conversão
int pageNumber =1;
// Coordenada X do canto inferior esquerdo
Double LLX = 0.0;
// Y - coordenada do canto inferior esquerdo.
Double LLY = 0.0;
// X - coordenada do canto superior direito.
Double URX = 800.0;
// Y - coordenada do canto superior direito.
Double URY = 800.0;
// chamar API para converter PDF em texto
TextRectsResponse response = pdfApi.getPageText(inputFile, pageNumber, LLX, LLY, URX, URY, null, null, true, null, "default");
// instância de arquivo TXT resultante
FileWriter myWriter = new FileWriter("filename.txt");
// Agora percorra a ocorrência de texto individual e obtenha o resultado de impressão no console
for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
{
// gravar conteúdo de texto em arquivo TXT
myWriter.write(response.getTextOccurrences().getList().get(counter).getText());
}
// feche o manipulador TXT
myWriter.close();
System.out.println("Text successfully extracted from PDF !");
}catch(Exception ex)
{
System.out.println(ex);
}
O arquivo PDF de amostra usado no exemplo acima pode ser baixado de marketing.pdf e extracted.txt
Extrair texto de PDF usando comandos cURL
As APIs REST podem ser facilmente acessadas por meio de comandos cURL, portanto, nesta seção, exploraremos a opção de como podemos extrair conteúdo textual de PDF usando comandos cURL. Portanto, como pré-requisito, primeiro precisamos gerar um token de acesso JWT (com base nas credenciais do cliente) ao executar o seguinte comando.
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
Assim que tivermos o token JWT, precisamos executar o seguinte comando para extrair todas as ocorrências de texto no documento PDF.
curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H "accept: application/json" \
-H "authorization: Bearer <JWT Token>"
Conclusão
Este artigo explicou os detalhes de como converter PDF para TXT usando Java Cloud SDK. Ao mesmo tempo, também exploramos as opções para extrair texto de PDF usando comandos cURL. Assim, com a flexibilidade de percorrer várias páginas PDF, temos um controle sobre onde extrair o conteúdo. É altamente recomendável que você explore o produto Documentação para saber mais sobre os outros recursos interessantes oferecidos pelo Java Cloud API. Além disso, como todos os nossos Cloud SDKs são publicados sob a licença MIT, você pode fazer o download do código-fonte completo do GitHub e modificá-lo de acordo com seus requisitos. Em caso de problemas, considere entrar em contato conosco para uma resolução rápida por meio do [fórum de suporte ao produto] gratuito 9.
Artigos relacionados
Por favor, visite os links a seguir para saber mais sobre: