izdvojiti pdf tekst

Izdvojite tekst iz PDF-a pomoću .NET REST API-ja.

PDF dokumenti postali su standard za dijeljenje i razmjenu informacija na različitim platformama i uređajima. Iako PDF-ovi nude siguran i dosljedan format, izdvajanje bitnih podataka iz tih dokumenata može biti zastrašujući zadatak, osobito kada se radi o velikim količinama informacija. Bilo da trebate izdvojiti tekst za analizu, unos podataka ili manipulaciju sadržajem, pouzdano i učinkovito rješenje za izdvajanje teksta je ključno. U ovom članku ulazimo u svijet izdvajanja teksta iz PDF datoteka pomoću .NET REST API-ja, kojeg pokreće robusni Aspose.PDF Cloud SDK.

REST API za obradu PDF-a

Aspose.PDF Cloud SDK za .NET robustan je API jednostavan za korištenje koji pojednostavljuje izdvajanje teksta iz PDF-ova. Jedna od istaknutih značajki Aspose.PDF Cloud SDK-a za .NET je njegova sposobnost rukovanja složenim PDF strukturama i preciznog izdvajanja teksta iz dokumenata s različitim izgledima. Sadrži li PDF tekst, slike, tablice ili druge složene elemente, API može inteligentno kretati kroz dokument i precizno dohvatiti tekstualni sadržaj. Stoga, moćne značajke, točnost i jednostavnost integracije čine ga idealnim izborom za izdvajanje vrijednih tekstualnih podataka iz PDF dokumenata unutar njihovih .NET aplikacija.

Sada, da bismo započeli s ovom značajkom, prvi korak je dodavanje reference Cloud SDK-a u naše .NET rješenje. Dakle, potražite Aspose.PDF-Cloud u upravitelju paketa NuGet i kliknite gumb Dodaj paket. Drugo, posjetite nadzornu ploču u oblaku i nabavite svoje personalizirane vjerodajnice klijenta.

Ekstrahirajte PDF tekst koristeći C# .NET

U ovom odjeljku istražit ćemo pojedinosti programskog izdvajanja teksta iz PDF-a.

// Za potpune primjere i podatkovne datoteke idite na 
https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-dotnet

// Nabavite vjerodajnice klijenta s https://dashboard.aspose.cloud/
string clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
string clientID = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";

// stvoriti instancu PdfApi
PdfApi pdfApi = new PdfApi(clientSecret, clientID);

// Unesite naziv PDF datoteke
String inputFile = "Binder1-1.pdf";
// Pročitajte sadržaj PDF datoteke u stream instanci
var sourceFile = System.IO.File.OpenRead(inputFile);

// Prenesite PDF datoteku u pohranu u oblaku
pdfApi.UploadFile("inputPDF.pdf", sourceFile);

// X-koordinata donjeg lijevog kuta
Double LLX = 500.0;
// Y - koordinata donjeg lijevog kuta.
Double LLY = 500.0;
// X - koordinata gornjeg desnog kuta.
Double URX = 800.0;
// Y - koordinata gornjeg desnog kuta.
Double URY = 800.0;

// Pozovite API za izdvajanje teksta iz određenih koordinata na PDF dokumentu
TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);

// Prolazi kroz pojedinačnu pojavu teksta
for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
    // pisanje tekstualnog sadržaja u konzoli
    Console.WriteLine(response.TextOccurrences.List[counter].Text);
}
Ekstrahiraj pdf tekst

Pregled teksta preuzetog iz PDF dokumenta.

U nastavku su navedeni detalji koji se odnose na gore navedeni isječak koda.

PdfApi pdfApi = new PdfApi(clientSecret, clientID);

Prvo, stvorite instancu PdfApi klase kojoj prosljeđujemo vjerodajnice klijenta kao argumente.

String inputFile = "Binder1-1.pdf";
var sourceFile = System.IO.File.OpenRead(inputFile);

Učitajte sadržaj ulazne PDF datoteke u instancu strujanja.

pdfApi.UploadFile("inputPDF.pdf", sourceFile);

Prenesite PDF dokument u pohranu u oblaku.

TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);

Pozovite API za izdvajanje teksta iz PDF datoteke na određenim koordinatama stranice.

for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
    // write text content in console
    Console.WriteLine(response.TextOccurrences.List[counter].Text);
}

Iterirajte kroz popis koji sadrži izdvojene tekstualne pojave i ispišite tekstualne instance u konzoli.

Raščlanite tekst iz PDF-a pomoću cURL naredbi

Koristeći cURL naredbe u kombinaciji s Aspose.PDF Cloud API-jem, možete bez napora izdvojiti tekstualni sadržaj iz PDF datoteka koje se nalaze na pohrani u oblaku. API podržava niz parametara za prilagodbu procesa izdvajanja, omogućujući vam da odredite koordinate i druge opcije za precizno izdvajanje teksta.

Prvi korak s ovim pristupom je generiranje JWT pristupnog tokena tijekom izvođenja sljedeće naredbe.

curl -v "https://api.aspose.cloud/connect/token" \
 -X POST \
 -d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
 -H "Content-Type: application/x-www-form-urlencoded" \
 -H "Accept: application/json"

Nakon što je JWT token generiran, izvršite sljedeću naredbu za povlačenje teksta iz PDF dokumenta.

curl -v "https://api.aspose.cloud/v3.0/pdf/{inputPDF}/text?splitRects=true&LLX=10&LLY=10&URX=800&URY=800" \
-X GET \
-H  "accept: application/json" \
-H  "authorization: Bearer {accessToken}" \
-o "extractedContent.txt"

Zamijenite inputPDF nazivom PDF dokumenta koji je već dostupan u pohrani u oblaku, a accessToken JWT tokenom koji je generiran gore.

Zaključak

Zaključno, i Aspose.PDF Cloud SDK za .NET i cURL naredbeni pristup nude učinkovita i pouzdana rješenja za izdvajanje teksta iz PDF dokumenata. Aspose.PDF Cloud SDK za .NET pruža sveobuhvatan API prilagođen programerima sa širokim rasponom značajki, što ga čini moćnim izborom za integraciju ekstrakcije PDF teksta u .NET aplikacije. S druge strane, pristup naredbi cURL nudi fleksibilnu metodu neovisan o platformi za interakciju s Aspose.PDF Cloud API-jem, što ga čini izvrsnom opcijom za programere koji rade u različitim okruženjima i programskim jezicima.

korisni linkovi

povezani članci

Preporučujemo da posjetite sljedeće blogove: