Arquivos PDF(Portable Document Format) estão entre os formatos mais confiáveis e amplamente utilizados para compartilhar documentos em diferentes plataformas—garantindo um layout e aparência consistentes, independentemente do software ou dispositivo. No entanto, há situações em que os desenvolvedores precisam extrair texto de arquivos PDF programaticamente, como analisar conteúdo, indexar documentos ou converter PDFs em formatos de texto editáveis.
Neste artigo, nós vamos explorar como extrair texto de arquivos PDF e construir um conversor de PDF para Texto usando a API REST .NET, permitindo a extração de texto de forma contínua e automatizada através de chamadas de API REST.
- API de Processamento de PDF
- Realize a Conversão de PDF para Texto em C#
- Extrair texto de PDF usando cURL
API de Processamento de PDF
Aproveite o poder do Aspose.PDF Cloud SDK for .NET para extrair texto de arquivos PDF de forma eficiente. Além da extração de texto, o SDK permite que você crie documentos PDF do zero ou a partir de modelos, edite PDFs existentes e os converta para outros formatos suportados. Você também pode realizar tarefas como descriptografar, mesclar e manipular arquivos PDF diretamente através da API REST .NET.
Agora, para começarmos, precisamos instalar o SDK em nosso projeto .NET.
NuGet\Install-Package Aspose.Pdf-Cloud -Version 25.9.0
Também precisamos criar uma conta gratuita no Cloud Dashboard e obter nossas credenciais de cliente personalizadas.
Realizar a Conversão de PDF para Texto em C#
Por favor, siga os passos mencionados abaixo para extrair o texto do arquivo PDF usando C# .NET.
PdfApi pdfApi = new PdfApi(clientSecret, clientID);
Crie um objeto da classe PdfApi
onde passamos as credenciais do cliente obtidas acima como argumentos.
String inputFile = "sourceFile.pdf";
var sourceFile = System.IO.File.OpenRead(inputFile);
pdfApi.UploadFile("sourceFile.pdf", sourceFile);
Leia o PDF de entrada do drive local e faça o upload para o armazenamento em nuvem usando o método UploadFile(...)
.
TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);
Precisamos especificar a região no arquivo PDF de onde precisamos extrair o conteúdo de texto usando o método GetText(...)
.
for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
// write text content in console
Console.WriteLine(response.TextOccurrences.List[counter].Text);
}
Uma vez que o conteúdo do texto tenha sido extraído, podemos salvá-lo no disco local ou imprimi-lo no console.
// Para mais exemplos, por favor visite https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-dotnet
// Obtenha credenciais de cliente em https://dashboard.aspose.cloud/
string clientSecret = "XXXXXXXXX";
string clientID = "XXXXXX-XXXXXXX-be35-ff5c3a6aa4a2";
// crie um objeto de PdfApi passando as credenciais do cliente como argumentos
PdfApi pdfApi = new PdfApi(clientSecret, clientID);
// Input PDF file name
String inputFile = "input.pdf";
// Carregue o arquivo PDF em uma instância de stream.
var sourceFile = OpenRead(inputFile);
// Faça o upload do arquivo PDF para o armazenamento em nuvem.
pdfApi.UploadFile("inputPDF.pdf", sourceFile);
// Coordenada X do canto inferior esquerdo
Double LLX = 200.0;
// Y - coordenada do canto inferior esquerdo.
Double LLY = 200.0;
// Coordenada X do canto superior direito.
Double URX = 600.0;
// Y - coordenada do canto superior direito.
Double URY = 650.0;
// Chame a API para extrair texto de coordenadas especificadas
TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);
// Agora, itere através de cada ocorrência de texto e imprima no console.
// Alternativamente, podemos também salvar a saída diretamente em um arquivo .txt.
for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
// write text content in console
Console.WriteLine(response.TextOccurrences.List[counter].Text);
}
Extrair texto de PDF usando cURL
Além de usar snippets de código .NET ou Java, você também pode extrair texto de arquivos PDF usando Aspose.PDF Cloud através de comandos cURL. Portanto, nesta abordagem, os pré-requisitos são gerar um token de acesso JWT (baseado nas suas credenciais de cliente), que pode ser obtido usando o seguinte comando.
Etapa 1. - Obter o token JWTAccess:
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=XXXXX-XXXXX-XXXXXX-ff5c3a6aa4a2&client_secret=XXXXXXXXXXXX" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
Passo 1. - Extrair texto do arquivo PDF:
curl -v "https://api.aspose.cloud/v3.0/pdf/{inputPDF}/text?splitRects=true&LLX=10&LLY=10&URX=800&URY=800" \
-X GET \
-H "accept: application/json" \
-H "authorization: Bearer {Access_Token}" \
-o "extractedContent.txt"
- Assim que o comando for executado com sucesso, o texto da região retangular especificada será extraído para um arquivo de texto.
Free PDF Parser App
Se você está procurando testar as capacidades da API sem qualquer codificação ou comandos cURL, experimente usar nosso aplicativo [Free PDF Parser] construído em cima de .NET REST APIs.

Considerações Finais
Neste artigo, nós aprendemos os detalhes sobre como integrar o Aspose.PDF Cloud SDK para .NET em nosso projeto .NET para fins de extração de texto e, ao mesmo tempo, exploramos a opção de usar comandos cURL para realizar a extração de texto de PDF via interface de linha de comando. Portanto, seja seu objetivo análise de dados, aprendizado de máquina ou outros propósitos de automação, o SDK lhe proporciona ferramentas confiáveis para lidar com conteúdo PDF de forma eficiente. Coloque essas habilidades em prática e otimize seu manuseio de PDF como um profissional!
Material de Leitura
- Documentação do Produto
- Código-Fonte do GitHub
- Referência da API
- Suporte de Produto Gratuito
- Teste Grátis
Artigos Relacionados
Nós também recomendamos visitar os seguintes links para saber mais sobre: