pdf-tekst uitpakken

Extraheer tekst uit PDF met behulp van de .NET REST API.

De PDF-documenten zijn de standaard geworden voor het delen en uitwisselen van informatie tussen verschillende platforms en apparaten. Hoewel PDF’s een veilig en consistent formaat bieden, kan het extraheren van essentiële gegevens uit deze documenten een hele klus zijn, vooral als het om grote hoeveelheden informatie gaat. Of u nu tekst moet extraheren voor analyse, gegevensinvoer of inhoudsmanipulatie, een betrouwbare en efficiënte oplossing voor tekstextractie is van cruciaal belang. In dit artikel duiken we in de wereld van het extraheren van tekst uit PDF-bestanden met behulp van de .NET REST API, mogelijk gemaakt door de robuuste Aspose.PDF Cloud SDK.

REST API voor PDF-verwerking

Aspose.PDF Cloud SDK voor .NET is een robuuste en gebruiksvriendelijke API die de extractie van tekst uit PDF’s vereenvoudigt. Een van de opvallende kenmerken van Aspose.PDF Cloud SDK voor .NET is de mogelijkheid om complexe PDF-structuren te verwerken en tekst nauwkeurig te extraheren uit documenten met verschillende lay-outs. Of de PDF nu tekst, afbeeldingen, tabellen of andere complexe elementen bevat, de API kan op intelligente wijze door het document navigeren en de tekstinhoud nauwkeurig ophalen. Daarom maken de krachtige functies, de nauwkeurigheid en het integratiegemak het een ideale keuze om waardevolle tekstuele gegevens uit PDF-documenten te extraheren binnen hun .NET-toepassingen.

Om met deze functie te beginnen, is de eerste stap het toevoegen van de referentie van Cloud SDK aan onze .NET-oplossing. Zoek dus naar ‘Aspose.PDF-Cloud’ in de NuGet-pakketbeheerder en klik op de knop ‘Pakket toevoegen’. Ten tweede, ga naar cloud dashboard en verkrijg uw gepersonaliseerde klantgegevens.

Extraheer PDF-tekst met C# .NET

In deze sectie gaan we de details onderzoeken om tekst programmatisch uit PDF te extraheren.

// Voor volledige voorbeelden en gegevensbestanden gaat u naar 
https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-dotnet

// Haal klantreferenties op van https://dashboard.aspose.cloud/
string clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
string clientID = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";

// maak een exemplaar van PdfApi
PdfApi pdfApi = new PdfApi(clientSecret, clientID);

// Voer de PDF-bestandsnaam in
String inputFile = "Binder1-1.pdf";
// Lees de inhoud van het PDF-bestand in de streaminstantie
var sourceFile = System.IO.File.OpenRead(inputFile);

// Upload een PDF-bestand naar cloudopslag
pdfApi.UploadFile("inputPDF.pdf", sourceFile);

// X-coördinaat van de linkeronderhoek
Double LLX = 500.0;
// Y - coördinaat van de linkerbenedenhoek.
Double LLY = 500.0;
// X - coördinaat van de rechterbovenhoek.
Double URX = 800.0;
// Y - coördinaat van de rechterbovenhoek.
Double URY = 800.0;

// Roep de API aan om tekst uit bepaalde coördinaten in een PDF-document te extraheren
TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);

// Doorloop individuele tekstvoorvallen
for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
    // schrijf tekstinhoud in de console
    Console.WriteLine(response.TextOccurrences.List[counter].Text);
}
Pdf-tekst uitpakken

Voorbeeld van tekst uit PDF-document.

Hieronder vindt u de details met betrekking tot het bovengenoemde codefragment.

PdfApi pdfApi = new PdfApi(clientSecret, clientID);

Maak eerst een exemplaar van de PdfApi-klasse waarin we clientreferenties doorgeven als argumenten.

String inputFile = "Binder1-1.pdf";
var sourceFile = System.IO.File.OpenRead(inputFile);

Laad de inhoud van het invoer-PDF-bestand om het exemplaar te streamen.

pdfApi.UploadFile("inputPDF.pdf", sourceFile);

Upload het PDF-document naar cloudopslag.

TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);

Roep de API aan om tekst op bepaalde paginacoördinaten uit het PDF-bestand te extraheren.

for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
    // write text content in console
    Console.WriteLine(response.TextOccurrences.List[counter].Text);
}

Blader door de lijst met geëxtraheerde tekstexemplaren en druk de tekstexemplaren af in de console.

Parseer tekst uit PDF met behulp van cURL-opdrachten

Met behulp van cURL-opdrachten in combinatie met Aspose.PDF Cloud API kunt u moeiteloos tekstinhoud extraheren uit PDF-bestanden die worden gehost in de cloudopslag. De API ondersteunt een verscheidenheid aan parameters om het extractieproces aan te passen, zodat u coördinaten en andere opties kunt opgeven om tekst met precisie te extraheren.

De eerste stap bij deze aanpak is het genereren van een JWT-toegangstoken tijdens het uitvoeren van de volgende opdracht.

curl -v "https://api.aspose.cloud/connect/token" \
 -X POST \
 -d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
 -H "Content-Type: application/x-www-form-urlencoded" \
 -H "Accept: application/json"

Zodra het JWT-token is gegenereerd, voert u de volgende opdracht uit om de tekst uit het PDF-document op te halen.

curl -v "https://api.aspose.cloud/v3.0/pdf/{inputPDF}/text?splitRects=true&LLX=10&LLY=10&URX=800&URY=800" \
-X GET \
-H  "accept: application/json" \
-H  "authorization: Bearer {accessToken}" \
-o "extractedContent.txt"

Vervang inputPDF door de naam van het PDF-document dat al beschikbaar is in de cloudopslag, en accessToken door het hierboven gegenereerde JWT-token.

Conclusie

Kortom, zowel de Aspose.PDF Cloud SDK voor .NET als de cURL-opdrachtaanpak bieden efficiënte en betrouwbare oplossingen voor het extraheren van tekst uit PDF-documenten. De Aspose.PDF Cloud SDK voor .NET biedt een uitgebreide en ontwikkelaarsvriendelijke API met een breed scala aan functies, waardoor het een krachtige keuze is voor het integreren van PDF-tekstextractie in .NET-toepassingen. Aan de andere kant biedt de cURL-opdrachtaanpak een flexibele en platformonafhankelijke methode om te communiceren met de Aspose.PDF Cloud API, waardoor het een uitstekende optie is voor ontwikkelaars die in verschillende omgevingen en programmeertalen werken.

gerelateerde artikelen

Wij raden u ten zeerste aan de volgende blogs te bezoeken: