Extract tekst fra PDF i C# | PDF-tekstudtrækning ved hjælp af REST

PDF(Portable Document Format) filer er blandt de mest betroede og udbredte formater til deling af dokumenter på tværs af forskellige platforme—som sikrer en ensartet layout og udseende uanset software eller enhed. Men der er situationer, hvor udviklere har brug for at udtrække tekst fra PDF-filer programmatisk, såsom at analysere indhold, indeksere dokumenter eller konvertere PDF’er til redigerbare tekstformater.

I denne artikel vil vi udforske, hvordan man ekstraherer tekst fra PDF-filer og bygger en PDF til tekst-konverter ved hjælp af .NET REST API, hvilket muliggør problemfri og automatiseret tekste ekstraktion gennem REST API-opkald.

PDF Processing API
Perform PDF to Text Conversion in C#
Extract Text from PDF using cURL

PDF Processing API

Udnyt kraften i Aspose.PDF Cloud SDK for .NET til effektivt at udtrække tekst fra PDF-filer. Ud over tekstudtrækning gør SDKet det muligt at oprette PDF-dokumenter fra bunden eller skabeloner, redigere eksisterende PDFer og konvertere dem til andre understøttede formater. Du kan også udføre opgaver som at dekryptere, sammenflette og manipulere PDF-filer direkte gennem .NET REST API’en.

Nu skal vi i gang, vi skal installere SDK’et i vores .NET-projekt.

NuGet\Install-Package Aspose.Pdf-Cloud -Version 25.9.0

Vi skal også oprette en gratis konto på Cloud Dashboard og få vores personlige klientoplysninger.

Udfør PDF til tekstkonvertering i C#

Please follow the steps mentioned below to extract the text from PDF file using C# .NET.

PdfApi pdfApi = new PdfApi(clientSecret, clientID);

Opret et objekt af PdfApi klassen, hvor vi passerer klientlegitimationsoplysningerne, der er opnået ovenfor som argumenter.

String inputFile = "sourceFile.pdf";
var sourceFile = System.IO.File.OpenRead(inputFile);
pdfApi.UploadFile("sourceFile.pdf", sourceFile);

Læs input-PDF’en fra den lokale drev og upload til cloud-lagring ved hjælp af UploadFile(...) metoden.

TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);

Vi skal angive regionen i PDF-filen, hvorfra vi skal udtrække tekstindholdet ved hjælp af GetText(...) metoden.

for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
    // write text content in console
    Console.WriteLine(response.TextOccurrences.List[counter].Text);
}

Når tekstindholdet er blevet udtrukket, kan vi enten gemme det på den lokale drev eller udskrive det i konsollen.

// For more examples, please viist https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-dotnet

// Get client credentials from https://dashboard.aspose.cloud/
string clientSecret = "XXXXXXXXX";
string clientID = "XXXXXX-XXXXXXX-be35-ff5c3a6aa4a2";

// opret et objekt af PdfApi mens du passer klient legitimationsoplysninger som argumenter
PdfApi pdfApi = new PdfApi(clientSecret, clientID);

// Input PDF-filnavn
String inputFile = "input.pdf";
// Indlæs PDF-filen i stream-instans
var sourceFile = OpenRead(inputFile);

// Upload PDF-fil til skyopbevaring
pdfApi.UploadFile("inputPDF.pdf", sourceFile);

// X-koordinat for nederste venstre hjørne
Double LLX = 200.0;
// Y - koordinat for nederste venstre hjørne.
Double LLY = 200.0;
// X - koordineret for det øverste højre hjørne.
Double URX = 600.0;
// Y - koordinat for øverste højre hjørne.
Double URY = 650.0;

// Call the API to extract text from specified coordinates
TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);

// Nu i iterere gennem hver tekstforekomst og udskrive i konsollen
// Alternativt kan vi også gemme output direkte i .txt filen.
for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
    // write text content in console
    Console.WriteLine(response.TextOccurrences.List[counter].Text);
}

Extract Text from PDF using cURL

Udover at bruge .NET eller Java kodeudsnit, kan du også udtrække tekst fra PDF-filer ved hjælp af Aspose.PDF Cloud gennem cURL-kommandoer. Så i denne tilgang er forudsætningen at generere et JWT-adgangstoken (baseret på dine klientoplysninger), som kan opnås ved at bruge følgende kommando.

Trin 1. - Opret JWTAccess-token:

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=XXXXX-XXXXX-XXXXXX-ff5c3a6aa4a2&client_secret=XXXXXXXXXXXX" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Step 1. - Uddrag tekst fra PDF-fil:

curl -v "https://api.aspose.cloud/v3.0/pdf/{inputPDF}/text?splitRects=true&LLX=10&LLY=10&URX=800&URY=800" \
-X GET \
-H  "accept: application/json" \
-H  "authorization: Bearer {Access_Token}" \
-o "extractedContent.txt"

Når kommandoen er blevet udført med succes, bliver teksten fra det angivne rektangulære område udtrukket til en tekstfil.

Free PDF Parser App

Hvis du ønsker at teste API’ens funktioner uden nogen kodning eller cURL-kommandoer, så prøv at bruge vores [Free PDF Parser] applikation bygget oven på .NET REST APIs.

Afsluttende Bemærkninger

I denne artikel har vi lært detaljerne om, hvordan man integrerer Aspose.PDF Cloud SDK for .NET i vores .NET-projekt til tekstudtræk og samtidig har vi udforsket muligheden for at bruge cURL-kommandoer til at udføre PDF-tekstudtræk via kommandolinjegrænsefladen. Så uanset om dit mål er dataanalyse, maskinlæring eller andre automatiseringsformål, giver SDK’en dig pålidelige værktøjer til effektivt at håndtere PDF-indhold. Sæt disse færdigheder i praksis og strømlign din PDF-håndtering som en pro!

Læsemateriale

Relaterede artikler

Vi anbefaler også at besøge følgende links for at lære mere om:

PDF Processing API#

Udfør PDF til tekstkonvertering i C##

Extract Text from PDF using cURL#

Free PDF Parser App#

Afsluttende Bemærkninger#

Læsemateriale#

Relaterede artikler#