estrarre il testo in pdf

Estrai testo da PDF utilizzando l’API .NET REST.

I documenti PDF sono diventati lo standard per la condivisione e lo scambio di informazioni su varie piattaforme e dispositivi. Sebbene i PDF offrano un formato sicuro e coerente, estrarre dati essenziali da questi documenti può essere un compito arduo, soprattutto quando si tratta di grandi volumi di informazioni. Che tu abbia bisogno di estrarre testo per analisi, immissione di dati o manipolazione di contenuti, una soluzione di estrazione di testo affidabile ed efficiente è fondamentale. In questo articolo, approfondiamo il mondo dell’estrazione di testo da file PDF utilizzando l’API .NET REST, basata sul robusto Aspose.PDF Cloud SDK.

API REST per l’elaborazione PDF

Aspose.PDF Cloud SDK per .NET è un’API robusta e intuitiva che semplifica l’estrazione del testo dai PDF. Una delle caratteristiche principali di Aspose.PDF Cloud SDK per .NET è la sua capacità di gestire strutture PDF complesse ed estrarre con precisione testo da documenti con layout diversi. Se il PDF contiene testo, immagini, tabelle o altri elementi complessi, l’API può navigare in modo intelligente attraverso il documento e recuperare il contenuto testuale con precisione. Pertanto, le potenti funzionalità, la precisione e la facilità di integrazione lo rendono la scelta ideale per estrarre preziosi dati testuali da documenti PDF all’interno delle loro applicazioni .NET.

Ora, per iniziare con questa funzionalità, il primo passo è aggiungere il riferimento di Cloud SDK nella nostra soluzione .NET. Quindi, cerca “Aspose.PDF-Cloud” nel gestore pacchetti NuGet e fai clic sul pulsante “Aggiungi pacchetto”. In secondo luogo, visita dashboard cloud e ottieni le tue credenziali cliente personalizzate.

Estrai testo PDF utilizzando C# .NET

In questa sezione, esploreremo i dettagli per estrarre il testo dal PDF a livello di codice.

// Per esempi completi e file di dati, visitare il sito 
https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-dotnet

// Ottieni le credenziali del cliente da https://dashboard.aspose.cloud/
string clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
string clientID = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";

// creare un'istanza di PdfApi
PdfApi pdfApi = new PdfApi(clientSecret, clientID);

// Inserisci il nome del file PDF
String inputFile = "Binder1-1.pdf";
// Leggere il contenuto del file PDF nell'istanza del flusso
var sourceFile = System.IO.File.OpenRead(inputFile);

// Carica il file PDF nell'archivio cloud
pdfApi.UploadFile("inputPDF.pdf", sourceFile);

// Coordinata X dell'angolo inferiore sinistro
Double LLX = 500.0;
// Y - coordinata dell'angolo inferiore sinistro.
Double LLY = 500.0;
// X - coordinata dell'angolo in alto a destra.
Double URX = 800.0;
// Y - coordinata dell'angolo in alto a destra.
Double URY = 800.0;

// Chiama l'API per estrarre il testo da determinate coordinate sul documento PDF
TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);

// Attraversa la singola occorrenza del testo
for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
    // scrivere contenuto testuale nella console
    Console.WriteLine(response.TextOccurrences.List[counter].Text);
}
Estrai testo pdf

Anteprima del testo estratto dal documento PDF.

Di seguito sono riportati i dettagli relativi allo snippet di codice sopra indicato.

PdfApi pdfApi = new PdfApi(clientSecret, clientID);

Innanzitutto, crea un’istanza della classe PdfApi in cui passiamo le credenziali del client come argomenti.

String inputFile = "Binder1-1.pdf";
var sourceFile = System.IO.File.OpenRead(inputFile);

Carica il contenuto del file PDF di input nell’istanza di streaming.

pdfApi.UploadFile("inputPDF.pdf", sourceFile);

Carica il documento PDF nell’archivio cloud.

TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);

Chiama l’API per estrarre il testo dal file PDF a determinate coordinate di pagina.

for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
    // write text content in console
    Console.WriteLine(response.TextOccurrences.List[counter].Text);
}

Scorri l’elenco contenente le occorrenze di testo estratto e stampa le istanze di testo nella console.

Analizza il testo da PDF utilizzando i comandi cURL

Utilizzando i comandi cURL in combinazione con l’API Aspose.PDF Cloud, puoi estrarre facilmente il contenuto di testo dai file PDF ospitati nel cloud storage. L’API supporta una varietà di parametri per personalizzare il processo di estrazione, consentendoti di specificare coordinate e altre opzioni per estrarre il testo con precisione.

Il primo passaggio con questo approccio consiste nel generare un token di accesso JWT durante l’esecuzione del comando seguente.

curl -v "https://api.aspose.cloud/connect/token" \
 -X POST \
 -d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
 -H "Content-Type: application/x-www-form-urlencoded" \
 -H "Accept: application/json"

Una volta generato il token JWT, esegui il seguente comando per estrarre il testo dal documento PDF.

curl -v "https://api.aspose.cloud/v3.0/pdf/{inputPDF}/text?splitRects=true&LLX=10&LLY=10&URX=800&URY=800" \
-X GET \
-H  "accept: application/json" \
-H  "authorization: Bearer {accessToken}" \
-o "extractedContent.txt"

Sostituisci “inputPDF” con il nome del documento PDF già disponibile nell’archivio cloud e “accessToken” con il token JWT generato sopra.

Conclusione

In conclusione, sia Aspose.PDF Cloud SDK per .NET che l’approccio al comando cURL offrono soluzioni efficienti e affidabili per estrarre testo da documenti PDF. Aspose.PDF Cloud SDK per .NET fornisce un’API completa e intuitiva per gli sviluppatori con un’ampia gamma di funzionalità, che lo rendono una scelta potente per integrare l’estrazione di testo PDF nelle applicazioni .NET. D’altra parte, l’approccio al comando cURL offre un metodo flessibile e indipendente dalla piattaforma per interagire con l’API Aspose.PDF Cloud, rendendolo un’opzione eccellente per gli sviluppatori che lavorano in diversi ambienti e linguaggi di programmazione.

articoli Correlati

Consigliamo vivamente di visitare i seguenti blog: