O arquivo PDF é um dos formatos amplamente utilizados para compartilhamento de dados e informações pela internet. No entanto, às vezes, eles usam fontes personalizadas e o tamanho do arquivo resultante pode aumentar. Além disso, podemos ter a necessidade de extrair o conteúdo textual para posterior processamento, portanto, neste cenário, a conversão de PDF para Texto é uma das soluções viáveis. Neste artigo, vamos discutir os detalhes de como podemos converter PDF para o formato TXT.
API de conversão de PDF para texto
Aspose.Words Cloud SDK for Java é uma solução líder para processamento de documentos do Word. É uma solução incrível que oferece recursos para criar, editar e transformar uma variedade de arquivos em DOC, HTML, JPEG e vários outros formatos suportados. Além de documentos do Word, ele também oferece suporte para carregar arquivos PDF e salvar a saída em TXT, HTML, XPS, TIFF etc. Para usar o SDK, adicione os seguintes detalhes ao seu pom.xml do seu tipo de compilação maven.
<repositories>
<repository>
<id>AsposeJavaAPI</id>
<name>Aspose Java API</name>
<url>https://repository.aspose.cloud/repo/</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-words-cloud</artifactId>
<version>22.5.0</version>
</dependency>
</dependencies>
Agora precisamos criar uma conta gratuita visitando Aspose.Cloud dashboard. Basta se inscrever usando sua conta existente do GitHub ou do Google ou clicar no botão Criar uma nova conta.
Converter PDF para TXT em Java
Siga as instruções abaixo para cumprir seus requisitos usando o trecho de código Java.
- Primeiro, crie um objeto de WordsApi usando um Client ID e Client Secret como parâmetros
- Em segundo lugar, leia o conteúdo do arquivo PDF da unidade local usando o objeto Arquivo
- Em terceiro lugar, leia o conteúdo do arquivo PDF usando a instância UploadFileRequest
- A próxima etapa é chamar o método uploadFile(…) para carregar o PDF para o armazenamento em nuvem
- Agora, crie um objeto de GetDocumentWithFormatRequest(…) onde especificamos o formato de saída como formato TXT
- Por fim, chame o método getDocumentWithFormat(…) para converter PDF em Texto e salve a saída no armazenamento em nuvem.
// para mais exemplos, visite https://github.com/aspose-words-cloud/aspose-words-cloud-java
try
{
// Obtenha ClientID e ClientSecret em https://dashboard.aspose.cloud/
String clientId = "bbf94a2c-6d7e-4020-b4d2-b9809741374e";
String clientSecret = "1c9379bb7d701c26cc87e741a29987bb";
// criar um objeto de WordsApi
// se baseUrl for nulo, WordsApi usará https://api.aspose.cloud padrão
WordsApi wordsApi = new WordsApi(clientId, clientSecret, null);
// leia o conteúdo do PDF da unidade local
File file = new File("c://input.pdf");
// criar solicitação de upload de arquivo
UploadFileRequest uploadRequest = new UploadFileRequest(Files.readAllBytes(file.toPath()), "input.pdf", null);
// fazer upload de arquivo para armazenamento em nuvem
wordsApi.uploadFile(uploadRequest);
// criar objeto de solicitação de conversão de documento
GetDocumentWithFormatRequest request = new GetDocumentWithFormatRequest("input.pdf", "PDF", "", "Internal","", "", "", "extracted.txt","");
// Chame a API para converter PDF em Texto online
wordsApi.getDocumentWithFormat(request);
System.out.println("PDF to TXT Conversion sucessfull !");
}catch(Exception ex)
{
System.out.println(ex);
}
Use o trecho de código a seguir para carregar o PDF da unidade local e salvar no formato TXT. Após a conversão, o arquivo resultante é salvo no armazenamento em nuvem.
- Primeiro, crie um objeto de WordsApi usando um Client ID e Client Secret como parâmetros
- Em segundo lugar, leia o conteúdo do arquivo PDF da unidade local usando o objeto Arquivo
- Em terceiro lugar, crie um objeto de ConvertDocumentRequest(…) onde fornecemos argumentos do objeto File, TXT como formato resultante e caminho de saída do arquivo TXT resultante
- Por fim, chame o método convertDocument(…) para converter PDF em Texto e salve a saída no armazenamento em nuvem
// para mais exemplos, visite https://github.com/aspose-words-cloud/aspose-words-cloud-java
try
{
// Obtenha ClientID e ClientSecret em https://dashboard.aspose.cloud/
String clientId = "bbf94a2c-6d7e-4020-b4d2-b9809741374e";
String clientSecret = "1c9379bb7d701c26cc87e741a29987bb";
// criar um objeto de WordsApi
// se baseUrl for nulo, WordsApi usará https://api.aspose.cloud padrão
WordsApi wordsApi = new WordsApi(clientId, clientSecret, null);
// leia o conteúdo do PDF da unidade local
File file = new File("c://input.pdf");
// criar objeto de solicitação de conversão de documento
ConvertDocumentRequest request = new ConvertDocumentRequest(Files.readAllBytes(file.toPath()), "TXT", "Extracted.txt", null, null, null);
// Chame a API para converter PDF em formato de texto
wordsApi.convertDocument(request);
System.out.println("PDF to TXT Conversion sucessfull !");
}catch(Exception ex)
{
System.out.println(ex);
}
PDF para TXT usando comandos cURL
Nesta seção, vamos realizar a conversão de PDF para Texto usando comandos cURL. Agora, como pré-requisito, precisamos gerar o token de acesso JWT com base nas credenciais do cliente usando o seguinte comando.
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bbf94a2c-6d7e-4020-b4d2-b9809741374e&client_secret=1c9379bb7d701c26cc87e741a29987bb" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
Agora, execute o seguinte comando para carregar o arquivo PDF no armazenamento em nuvem.
curl -v -X PUT "https://api.aspose.cloud/v4.0/words/storage/file/input.pdf" \
-H "accept: application/json" \
-H "Authorization: Bearer <JWT Token>" \
-H "Content-Type: multipart/form-data" \
-d {"fileContent":{}}
Por fim, execute o seguinte comando para converter PDF em formato de texto.
curl -v -X GET "https://api.aspose.cloud/v4.0/words/Quick%20Start%20Guide-%20Inventory%20Software%20Suite.pdf?format=TXT&outPath=extracted.txt" \
-H "accept: application/octet-stream" \
-H "Authorization: Bearer <JWT Token>"
Conclusão
Este artigo explicou os detalhes sobre a conversão de PDF em texto usando o trecho de código Java. Da mesma forma, também aprendemos as etapas para converter PDF em TXT usando os comandos cURL. Para um melhor aprendizado, você pode explorar a API usando Swagger UI no navegador da web.
Se você tiver alguma dúvida relacionada ou encontrar algum problema, sinta-se à vontade para nos contatar por meio do [fórum de suporte técnico] gratuito 16.
Artigos relacionados
É altamente recomendável ler os seguintes artigos para saber mais sobre: