uddrag pdf-tekst

Uddrag tekst fra PDF ved hjælp af .NET REST API.

PDF dokumenterne er blevet standarden for deling og udveksling af information på tværs af forskellige platforme og enheder. Mens PDF’er tilbyder et sikkert og ensartet format, kan det være en skræmmende opgave at udtrække væsentlige data fra disse dokumenter, især når der er tale om store mængder information. Uanset om du har brug for at udtrække tekst til analyse, dataindtastning eller indholdsmanipulation, er en pålidelig og effektiv tekstudtræksløsning afgørende. I denne artikel dykker vi ned i verden med at udtrække tekst fra PDF-filer ved hjælp af .NET REST API, drevet af den robuste Aspose.PDF Cloud SDK.

REST API til PDF-behandling

Aspose.PDF Cloud SDK til .NET er en robust og brugervenlig API, der forenkler tekstudtrækning fra PDF’er. En af de iøjnefaldende funktioner i Aspose.PDF Cloud SDK til .NET er dens evne til at håndtere komplekse PDF-strukturer og præcist udtrække tekst fra dokumenter med forskellige layouts. Uanset om PDF’en indeholder tekst, billeder, tabeller eller andre komplekse elementer, kan API’en intelligent navigere gennem dokumentet og hente tekstindholdet med præcision. Derfor gør de kraftfulde funktioner, nøjagtighed og lette integration det til et ideelt valg at udtrække værdifulde tekstdata fra PDF-dokumenter i deres .NET-applikationer.

Nu, for at begynde med denne funktion, er det første skridt at tilføje referencen til Cloud SDK i vores .NET-løsning. Så søg Aspose.PDF-Cloud i NuGet pakkehåndtering og klik på knappen Tilføj pakke. For det andet skal du besøge cloud dashboard og få dine personlige kundeoplysninger.

Udpak PDF-tekst ved hjælp af C# .NET

I dette afsnit skal vi udforske detaljerne for at udtrække tekst fra PDF programmatisk.

// For komplette eksempler og datafiler, gå venligst til 
https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-dotnet

// Få klientlegitimationsoplysninger fra https://dashboard.aspose.cloud/
string clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
string clientID = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";

// oprette en instans af PdfApi
PdfApi pdfApi = new PdfApi(clientSecret, clientID);

// Indtast PDF-filnavn
String inputFile = "Binder1-1.pdf";
// Læs indholdet af PDF-fil i stream-instans
var sourceFile = System.IO.File.OpenRead(inputFile);

// Upload PDF-fil til skylager
pdfApi.UploadFile("inputPDF.pdf", sourceFile);

// X-koordinat af nederste - venstre hjørne
Double LLX = 500.0;
// Y - koordinat for nederste venstre hjørne.
Double LLY = 500.0;
// X - koordinat for øverste højre hjørne.
Double URX = 800.0;
// Y - koordinat for øverste højre hjørne.
Double URY = 800.0;

// Kald API'et for at udtrække tekst fra bestemte koordinater på PDF-dokumentet
TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);

// Gå gennem individuel tekstforekomst
for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
    // skrive tekstindhold i konsollen
    Console.WriteLine(response.TextOccurrences.List[counter].Text);
}
Uddrag pdf-tekst

Eksempel på tekst hentet fra PDF-dokument.

Nedenstående er detaljerne vedrørende ovennævnte kodestykke.

PdfApi pdfApi = new PdfApi(clientSecret, clientID);

For det første skal du oprette en forekomst af PdfApi-klassen, hvor vi videregiver klientoplysninger som argumenter.

String inputFile = "Binder1-1.pdf";
var sourceFile = System.IO.File.OpenRead(inputFile);

Indlæs indholdet af input-PDF-fil for at streame instans.

pdfApi.UploadFile("inputPDF.pdf", sourceFile);

Upload PDF-dokumentet til skylageret.

TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);

Kald API’et for at udtrække tekst fra PDF-fil på bestemte sidekoordinater.

for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
    // write text content in console
    Console.WriteLine(response.TextOccurrences.List[counter].Text);
}

Gentag gennem listen, der indeholder udtrukne tekstforekomster, og udskriv tekstforekomsterne i konsollen.

Parse tekst fra PDF ved hjælp af cURL-kommandoer

Ved at bruge cURL-kommandoer i kombination med Aspose.PDF Cloud API kan du uden besvær udtrække tekstindhold fra PDF-filer, der er hostet på skylageret. API’et understøtter en række parametre til at tilpasse udtrækningsprocessen, så du kan angive koordinater og andre muligheder for at udtrække tekst med præcision.

Det første trin med denne tilgang er at generere et JWT-adgangstoken, mens du udfører følgende kommando.

curl -v "https://api.aspose.cloud/connect/token" \
 -X POST \
 -d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
 -H "Content-Type: application/x-www-form-urlencoded" \
 -H "Accept: application/json"

Når JWT-tokenet er blevet genereret, skal du udføre følgende kommando for at trække teksten fra PDF-dokumentet.

curl -v "https://api.aspose.cloud/v3.0/pdf/{inputPDF}/text?splitRects=true&LLX=10&LLY=10&URX=800&URY=800" \
-X GET \
-H  "accept: application/json" \
-H  "authorization: Bearer {accessToken}" \
-o "extractedContent.txt"

Erstat inputPDF med navnet på PDF-dokumentet, der allerede er tilgængeligt i cloud storage, og accessToken med JWT-token genereret ovenfor.

Konklusion

Som konklusion tilbyder både Aspose.PDF Cloud SDK til .NET og cURL-kommandotilgangen effektive og pålidelige løsninger til at udtrække tekst fra PDF-dokumenter. Aspose.PDF Cloud SDK til .NET giver en omfattende og udviklervenlig API med en lang række funktioner, hvilket gør den til et kraftfuldt valg til at integrere PDF-tekstudtræk i .NET-applikationer. På den anden side tilbyder cURL-kommandotilgangen en fleksibel og platformsuafhængig metode til at interagere med Aspose.PDF Cloud API, hvilket gør det til en fremragende mulighed for udviklere, der arbejder i forskellige miljøer og programmeringssprog.

relaterede artikler

Vi anbefaler stærkt at besøge følgende blogs: