pdf in testo

Come convertire PDF in testo in Python

Il mondo digitale odierno è pieno di informazioni e la capacità di estrarre testo dai documenti PDF è diventata non solo una comodità, ma una necessità. Immagina di setacciare un lungo file PDF, alla ricerca di quell’informazione critica da citare nella tua ricerca, o forse stai gestendo un archivio di documenti, cercando di estrarre dati per l’analisi. In questi scenari e in molti altri, la capacità di convertire senza sforzo il contenuto PDF in testo normale emerge come un punto di svolta. Questo articolo esplora lo scopo profondo e gli innegabili vantaggi dell’estrazione di testo dai PDF tramite Python Cloud SDK. Questa trasformazione consente a individui e organizzazioni di gestire, analizzare e utilizzare in modo efficiente i contenuti digitali in un mondo in cui le informazioni sono di fondamentale importanza.

API REST per la conversione da PDF a testo

L’estrazione di testo dai documenti PDF è resa semplice ed efficiente con Aspose.PDF Cloud SDK per Python. Questo versatile SDK ti consente di convertire senza sforzo il contenuto PDF in testo normale, sbloccando le informazioni archiviate in questi documenti digitali.

Il Cloud SDK è disponibile per il download gratuito tramite il repository PIP e GitHub. Ora esegui il seguente comando sul terminale/prompt dei comandi per installare l’ultima versione dell’SDK:

 pip install asposepdfcloud

Se utilizzi PyCharm IDE, puoi aggiungere direttamente l’SDK come dipendenza nel tuo progetto.

File ->Impostazioni ->Progetto ->Interprete Python ->asposepdfcloud

Dopo l’installazione, il passo successivo più importante è un abbonamento gratuito ai nostri servizi cloud tramite Aspose.Cloud dashboard. Se hai un account GitHub o Google, registrati semplicemente o clicca sul pulsante Crea un nuovo account. Ora accedi alla dashboard e ottieni i dettagli del tuo ID cliente personalizzato e del tuo segreto cliente.

Estrarre testo da PDF in Python

Per estrarre il testo dai documenti PDF utilizzando Python SDK, seguire le istruzioni riportate di seguito.

  • Per prima cosa, crea un’istanza della classe ApiClient fornendo Client ID e Client Secret come argomenti.
  • In secondo luogo, creare un’istanza della classe PdfApi che accetti l’oggetto ApiClient come argomento di input.
  • Ora chiama il metodo gettext(…) fornendo le coordinate LLX, LLY, URX e URY.
def extractText():
    try:
        #Client credentials
        client_secret = "1c9379bb7d701c26cc87e741a29987bb"
        client_id = "bbf94a2c-6d7e-4020-b4d2-b9809741374e"

        #initialize PdfApi client instance using client credetials
        pdf_api_client = asposepdfcloud.api_client.ApiClient(client_secret, client_id)

        # crea un'istanza di PdfApi passando PdfApiClient come argomento
        pdf_api = PdfApi(pdf_api_client)

        #source image file
        input_file = 'awesomeTable.pdf'
        
        # Chiama il metodo per estrarre il testo
        response = pdf_api.get_text(name = input_file, llx=0,lly=0, urx=800, ury =800)
        print(response)
        
        # stampa messaggio nella console (facoltativo)
        print('Text Extracted successfully from PDF !')    
    except ApiException as e:
        print("Exception while calling PdfApi: {0}".format(e))
        print("Code:" + str(e.code))
        print("Message:" + e.message)
Anteprima della conversione da PDF a testo

Immagine 1: Anteprima da PDF a testo.

Nel caso in cui sia necessario estrarre il testo da una pagina specifica del documento, provare a utilizzare l’API GetPageText che accetta pageNumber come argomento.

Conversione da PDF a testo tramite comando cURL

Prova la trasformazione senza soluzione di continuità del contenuto PDF in testo normale utilizzando la potente combinazione di Aspose.PDF Cloud e comandi cURL. Questa integrazione dinamica non solo semplifica la conversione da PDF a testo, ma offre anche diversi vantaggi che migliorano la gestione dei documenti e l’esperienza di estrazione del testo.

Si prega di notare che un prerequisito di questo approccio è generare un JSON Web Token (JWT) basato sulle credenziali del client. Questo passaggio è obbligatorio poiché le nostre API sono accessibili solo agli utenti registrati. Eseguire il seguente comando per generare il token JWT.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bbf94a2c-6d7e-4020-b4d2-b9809741374e&client_secret=1c9379bb7d701c26cc87e741a29987bb" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Una volta ottenuto il token JWT, possiamo usare il seguente comando per convertire PDF in testo estraendo tutto il contenuto testuale. L’output viene salvato come file di testo normale sull’unità locale.

curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/awesomeTable.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>" \
-o Extracted.txt

Il campione utilizzato nell’esempio sopra può essere scaricato da awesomeTable.pdf.

Conclusione

L’estrazione di testo da documenti PDF è un requisito fondamentale in un mondo inondato di informazioni digitali. Nella nostra esplorazione di questo processo, abbiamo esaminato due percorsi dinamici: uno attraverso il versatile Aspose.PDF Cloud SDK per Python e l’altro tramite la potente combinazione di Aspose.PDF Cloud e comandi cURL.

Entrambi gli approcci colmano il divario tra contenuto PDF statico e testo dinamico, migliorando il modo in cui gestiamo, analizziamo e utilizziamo le informazioni digitali. Sia che tu scelga la sofisticatezza dell’SDK o la semplicità dei comandi cURL, entrambi i percorsi portano a un’efficiente conversione da PDF a testo, consentendoti di sbloccare la ricchezza di dati testuali nascosti nei documenti PDF.

Articoli correlati

Ti consigliamo inoltre di visitare i seguenti link per saperne di più: