I file PDF(Portable Document Format) sono tra i formati più affidabili e ampiamente utilizzati per condividere documenti su diverse piattaforme, garantendo un layout e un aspetto coerenti indipendentemente dal software o dal dispositivo. Tuttavia, ci sono situazioni in cui gli sviluppatori devono estrarre testo dai file PDF in modo programmatico, come analizzare contenuti, indicizzare documenti o convertire i PDF in formati di testo modificabili.

In questo articolo, esploreremo come estrarre testo da file PDF e costruire un convertitore da PDF a Testo utilizzando l’API REST .NET, consentendo un’estrazione del testo fluida e automatizzata attraverso chiamate API REST.

API di elaborazione PDF

Sfrutta la potenza di Aspose.PDF Cloud SDK per .NET per estrarre testo da file PDF in modo efficiente. Oltre all’estrazione del testo, l’SDK ti consente di creare documenti PDF da zero o da modelli, modificare PDF esistenti e convertirli in altri formati supportati. Puoi anche eseguire operazioni come decrittografare, unire e manipolare file PDF direttamente tramite l’API REST .NET.

Ora, per iniziare, dobbiamo installare l’SDK nel nostro progetto .NET.

NuGet\Install-Package Aspose.Pdf-Cloud -Version 25.9.0

Dobbiamo anche creare un account gratuito su Cloud Dashboard e ottenere le nostre credenziali client personalizzate.

Esegui la conversione da PDF a testo in C#

Si prega di seguire i passaggi indicati di seguito per estrarre il testo dal file PDF utilizzando C# .NET.

PdfApi pdfApi = new PdfApi(clientSecret, clientID);

Crea un oggetto della classe PdfApi dove passiamo le credenziali del cliente ottenute sopra come argomenti.

String inputFile = "sourceFile.pdf";
var sourceFile = System.IO.File.OpenRead(inputFile);
pdfApi.UploadFile("sourceFile.pdf", sourceFile);

Leggi il PDF di input dal disco locale e caricalo nel cloud utilizzando il metodo UploadFile(...).

TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);

Dobbiamo specificare la regione nel file PDF da cui dobbiamo estrarre il contenuto di testo utilizzando il metodo GetText(...).

for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
    // write text content in console
    Console.WriteLine(response.TextOccurrences.List[counter].Text);
}

Una volta estratto il contenuto del testo, possiamo salvarlo sul disco locale o stamparlo nella console.

// Per ulteriori esempi, si prega di visitare https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-dotnet

// Ottieni le credenziali del client da https://dashboard.aspose.cloud/
string clientSecret = "XXXXXXXXX";
string clientID = "XXXXXX-XXXXXXX-be35-ff5c3a6aa4a2";

// crea un oggetto di PdfApi passando le credenziali del client come argomenti
PdfApi pdfApi = new PdfApi(clientSecret, clientID);

// Input PDF file name
String inputFile = "input.pdf";
// Carica il file PDF in un'istanza di stream
var sourceFile = OpenRead(inputFile);

// Carica il file PDF nello spazio di archiviazione cloud.
pdfApi.UploadFile("inputPDF.pdf", sourceFile);

// Coordinata X dell'angolo in basso a sinistra
Double LLX = 200.0;
// Y - coordinata dell'angolo in basso a sinistra.
Double LLY = 200.0;
// X - coordinata dell'angolo in alto a destra.
Double URX = 600.0;
// Y - coordinata dell'angolo in alto a destra.
Double URY = 650.0;

// Chiama l'API per estrarre il testo dalle coordinate specificate.
TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);

// Ora itera attraverso ogni Occorrenza di Testo e stampala nella console
// In alternativa, possiamo anche salvare l'output direttamente in un file .txt.
for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
    // write text content in console
    Console.WriteLine(response.TextOccurrences.List[counter].Text);
}

Estrai testo da PDF utilizzando cURL

Oltre all’uso di frammenti di codice .NET o Java, puoi anche estrarre testo da file PDF utilizzando Aspose.PDF Cloud tramite comandi cURL. Quindi, in questo approccio, i requisiti sono generare un token di accesso JWT (basato sulle credenziali del tuo client), che può essere ottenuto utilizzando il seguente comando.

Passo 1. - Ottenere il token JWTAccess:

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=XXXXX-XXXXX-XXXXXX-ff5c3a6aa4a2&client_secret=XXXXXXXXXXXX" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Passo 1. - Estrai il testo dal file PDF:

curl -v "https://api.aspose.cloud/v3.0/pdf/{inputPDF}/text?splitRects=true&LLX=10&LLY=10&URX=800&URY=800" \
-X GET \
-H  "accept: application/json" \
-H  "authorization: Bearer {Access_Token}" \
-o "extractedContent.txt"
  • Una volta che il comando è stato eseguito con successo, il testo dalla regione rettangolare specificata viene estratto in un file di testo.

App gratuita per l’analisi dei PDF

Se stai cercando di testare le capacità dell’API senza alcun codice o comandi cURL, prova a usare la nostra [Free PDF Parser] applicazione costruita su .NET REST APIs.

pdf parser app

Osservazioni Conclusive

In questo articolo, abbiamo imparato i dettagli su come integrare Aspose.PDF Cloud SDK per .NET nel nostro progetto .NET per scopi di estrazione di testo e, allo stesso tempo, abbiamo esplorato l’opzione di utilizzare comandi cURL per eseguire l’estrazione di testo da PDF tramite interfaccia della riga di comando. Quindi, che il tuo obiettivo sia l’analisi dei dati, il machine learning o altri scopi di automazione, l’SDK ti offre strumenti affidabili per gestire i contenuti PDF in modo efficiente. Metti in pratica queste abilità e semplifica la gestione dei PDF come un professionista!

Materiale di Lettura

Articoli correlati

Consigliamo anche di visitare i seguenti link per saperne di più su: