extrage text pdf

Extrageți text din PDF utilizând .NET REST API.

Documentele PDF au devenit standardul pentru partajarea și schimbul de informații pe diferite platforme și dispozitive. În timp ce PDF-urile oferă un format sigur și consistent, extragerea datelor esențiale din aceste documente poate fi o sarcină descurajantă, mai ales atunci când aveți de-a face cu volume mari de informații. Indiferent dacă trebuie să extrageți text pentru analiză, introducere de date sau manipulare a conținutului, o soluție de extragere a textului fiabilă și eficientă este crucială. În acest articol, ne aprofundăm în lumea extragerii de text din fișiere PDF folosind .NET REST API, alimentat de robust Aspose.PDF Cloud SDK.

API-ul REST pentru procesarea PDF

Aspose.PDF Cloud SDK pentru .NET este un API robust și ușor de utilizat, care simplifică extragerea textului din PDF-uri. Una dintre caracteristicile remarcabile ale Aspose.PDF Cloud SDK pentru .NET este capacitatea sa de a gestiona structuri PDF complexe și de a extrage cu acuratețe textul din documente cu diverse aspecte. Indiferent dacă PDF-ul conține text, imagini, tabele sau alte elemente complexe, API-ul poate naviga inteligent prin document și poate prelua conținutul textului cu precizie. Prin urmare, caracteristicile puternice, acuratețea și ușurința de integrare fac din aceasta o alegere ideală pentru a extrage date textuale valoroase din documente PDF în cadrul aplicațiilor lor .NET.

Acum, pentru a începe cu această caracteristică, primul pas este să adăugați referința Cloud SDK în soluția noastră .NET. Deci, căutați Aspose.PDF-Cloud în managerul de pachete NuGet și faceți clic pe butonul Adăugați pachet. În al doilea rând, accesați cloud dashboard și obțineți acreditările personalizate de client.

Extrageți text PDF folosind C# .NET

În această secțiune, vom explora detaliile pentru a extrage textul din PDF în mod programatic.

// Pentru exemple complete și fișiere de date, accesați 
https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-dotnet

// Obțineți acreditările client de la https://dashboard.aspose.cloud/
string clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
string clientID = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";

// creați o instanță de PdfApi
PdfApi pdfApi = new PdfApi(clientSecret, clientID);

// Introduceți numele fișierului PDF
String inputFile = "Binder1-1.pdf";
// Citiți conținutul fișierului PDF în instanța de flux
var sourceFile = System.IO.File.OpenRead(inputFile);

// Încărcați fișierul PDF în stocarea în cloud
pdfApi.UploadFile("inputPDF.pdf", sourceFile);

// Coordonata X a colțului din stânga jos
Double LLX = 500.0;
// Y - coordonata colțului din stânga jos.
Double LLY = 500.0;
// X - coordonata colțului din dreapta sus.
Double URX = 800.0;
// Y - coordonata colțului din dreapta sus.
Double URY = 800.0;

// Apelați API pentru a extrage text din anumite coordonate pe documentul PDF
TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);

// Traversați prin apariția textului individual
for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
    // scrie conținut text în consolă
    Console.WriteLine(response.TextOccurrences.List[counter].Text);
}
Extrage text pdf

Previzualizare a textului extras din documentul PDF.

Mai jos sunt prezentate detaliile referitoare la fragmentul de cod menționat mai sus.

PdfApi pdfApi = new PdfApi(clientSecret, clientID);

În primul rând, creați o instanță a clasei PdfApi în care trecem acreditările clientului ca argumente.

String inputFile = "Binder1-1.pdf";
var sourceFile = System.IO.File.OpenRead(inputFile);

Încărcați conținutul fișierului PDF de intrare în instanța de flux.

pdfApi.UploadFile("inputPDF.pdf", sourceFile);

Încărcați documentul PDF în stocarea în cloud.

TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);

Apelați API pentru a extrage text din fișierul PDF la anumite coordonate ale paginii.

for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
    // write text content in console
    Console.WriteLine(response.TextOccurrences.List[counter].Text);
}

Iterați prin lista care conține aparițiile de text extrase și imprimați instanțele de text în consolă.

Analizați textul din PDF folosind comenzile cURL

Folosind comenzile cURL în combinație cu Aspose.PDF Cloud API, puteți extrage fără efort conținutul text din fișierele PDF găzduite pe stocarea în cloud. API-ul acceptă o varietate de parametri pentru a personaliza procesul de extracție, permițându-vă să specificați coordonatele și alte opțiuni pentru extragerea textului cu precizie.

Primul pas cu această abordare este generarea unui token de acces JWT în timp ce executați următoarea comandă.

curl -v "https://api.aspose.cloud/connect/token" \
 -X POST \
 -d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
 -H "Content-Type: application/x-www-form-urlencoded" \
 -H "Accept: application/json"

Odată ce simbolul JWT a fost generat, vă rugăm să executați următoarea comandă pentru a extrage textul din documentul PDF.

curl -v "https://api.aspose.cloud/v3.0/pdf/{inputPDF}/text?splitRects=true&LLX=10&LLY=10&URX=800&URY=800" \
-X GET \
-H  "accept: application/json" \
-H  "authorization: Bearer {accessToken}" \
-o "extractedContent.txt"

Înlocuiți inputPDF cu numele documentului PDF deja disponibil în stocarea în cloud și accessToken cu tokenul JWT generat mai sus.

Concluzie

În concluzie, atât Aspose.PDF Cloud SDK pentru .NET, cât și abordarea comenzilor cURL oferă soluții eficiente și fiabile pentru extragerea textului din documente PDF. Aspose.PDF Cloud SDK pentru .NET oferă un API cuprinzător și ușor de dezvoltat, cu o gamă largă de caracteristici, ceea ce îl face o alegere puternică pentru integrarea extragerii de text PDF în aplicațiile .NET. Pe de altă parte, abordarea comenzii cURL oferă o metodă flexibilă și independentă de platformă de a interacționa cu API-ul Aspose.PDF Cloud, ceea ce o face o opțiune excelentă pentru dezvoltatorii care lucrează în diferite medii și limbaje de programare.

Articole similare

Vă recomandăm să vizitați următoarele bloguri: