pdf para texto

Como converter PDF em texto em Python

O mundo digital de hoje tem abundância de informações e a capacidade de extrair texto de documentos PDF se tornou não apenas uma conveniência, mas uma necessidade. Imagine que você está vasculhando um longo arquivo PDF, procurando por aquela informação crítica para citar em sua pesquisa, ou talvez você esteja gerenciando um repositório de documentos, buscando extrair dados para análise. Nesses cenários e em muitos outros, a capacidade de converter facilmente conteúdo PDF em texto simples surge como um divisor de águas. Este artigo explora o propósito profundo e os benefícios inegáveis de extrair texto de PDFs usando o Python Cloud SDK. Essa transformação capacita indivíduos e organizações a gerenciar, analisar e utilizar conteúdo digital de forma eficiente em um mundo onde a informação é de profunda importância.

API REST de conversão de PDF para texto

A extração de texto de documentos PDF é feita de forma integrada e eficiente com o Aspose.PDF Cloud SDK para Python. Este versátil SDK permite que você converta facilmente conteúdo PDF em texto simples, desbloqueando as informações armazenadas nesses documentos digitais.

O Cloud SDK está disponível para download gratuito no repositório PIP e GitHub. Agora execute o seguinte comando no terminal/prompt de comando para instalar a versão mais recente do SDK:

 pip install asposepdfcloud

Se estiver usando o PyCharm IDE, você pode adicionar o SDK diretamente como uma dependência no seu projeto.

Arquivo ->Configurações ->Projeto ->Interpretador Python ->asposepdfcloud

Após a instalação, o próximo passo importante é uma assinatura gratuita dos nossos serviços de nuvem via Aspose.Cloud dashboard. Se você tem uma conta GitHub ou Google, basta se inscrever ou clicar no botão Create a new Account. Agora faça login no painel e obtenha seus detalhes personalizados de Client ID e Client Secret.

Extrair texto de PDF em Python

Siga as instruções abaixo para extrair texto de documentos PDF usando o Python SDK.

  • Primeiro, crie uma instância da classe ApiClient e forneça o ID do cliente e o segredo do cliente como argumentos.
  • Em segundo lugar, crie uma instância da classe PdfApi que recebe o objeto ApiClient como argumento de entrada.
  • Agora chame o método gettext(…) enquanto fornece as coordenadas LLX, LLY, URX e URY.
def extractText():
    try:
        #Client credentials
        client_secret = "1c9379bb7d701c26cc87e741a29987bb"
        client_id = "bbf94a2c-6d7e-4020-b4d2-b9809741374e"

        #initialize PdfApi client instance using client credetials
        pdf_api_client = asposepdfcloud.api_client.ApiClient(client_secret, client_id)

        # crie uma instância PdfApi enquanto passa PdfApiClient como argumento
        pdf_api = PdfApi(pdf_api_client)

        #source image file
        input_file = 'awesomeTable.pdf'
        
        # Chame o método para extrair texto
        response = pdf_api.get_text(name = input_file, llx=0,lly=0, urx=800, ury =800)
        print(response)
        
        # imprimir mensagem no console (opcional)
        print('Text Extracted successfully from PDF !')    
    except ApiException as e:
        print("Exception while calling PdfApi: {0}".format(e))
        print("Code:" + str(e.code))
        print("Message:" + e.message)
Prévia da conversão de PDF para texto

Imagem 1:- Visualização de PDF para texto.

Caso você precise extrair o texto de uma página específica do documento, tente usar a API GetPageText que usa pageNumber como argumento.

Conversão de PDF para texto usando o comando cURL

Experimente a transformação perfeita de conteúdo PDF em texto simples usando a poderosa combinação de comandos Aspose.PDF Cloud e cURL. Essa integração dinâmica não apenas simplifica a conversão de PDF para texto, mas também oferece vários benefícios que aprimoram sua experiência de gerenciamento de documentos e extração de texto.

Observe que um pré-requisito sob esta abordagem é gerar um JSON Web Token (JWT) com base nas credenciais do seu cliente. Esta etapa é obrigatória, pois nossas APIs são acessíveis apenas a usuários registrados. Execute o seguinte comando para gerar o token JWT.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bbf94a2c-6d7e-4020-b4d2-b9809741374e&client_secret=1c9379bb7d701c26cc87e741a29987bb" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Uma vez que temos o token JWT, podemos usar o seguinte comando para converter PDF em texto extraindo todo o conteúdo textual. A saída é salva como um arquivo de texto simples na unidade local.

curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/awesomeTable.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>" \
-o Extracted.txt

O exemplo usado no exemplo acima pode ser baixado de awesomeTable.pdf.

Conclusão

A extração de texto de documentos PDF é um requisito crítico em um mundo inundado de informações digitais. Em nossa exploração desse processo, examinamos dois caminhos dinâmicos: um por meio do versátil Aspose.PDF Cloud SDK para Python e o outro por meio da poderosa combinação de Aspose.PDF Cloud e comandos cURL.

Ambas as abordagens preenchem a lacuna entre o conteúdo estático do PDF e o texto dinâmico, aprimorando a maneira como gerenciamos, analisamos e utilizamos informações digitais. Quer você opte pela sofisticação do SDK ou pela simplicidade dos comandos cURL, ambos os caminhos levam à conversão eficiente de PDF para texto, capacitando você a desbloquear a riqueza de dados textuais ocultos em documentos PDF.

Artigos relacionados

Recomendamos também que você visite os seguintes links para saber mais sobre: