PDF(Portable Document Format) fájlok a legmegbízhatóbb és legelterjedtebb formátumok közé tartoznak, amelyeket különböző platformokon dokumentumok megosztására használnak — biztosítva a következetes elrendezést és megjelenést a szoftvertől vagy eszköztől függetlenül. Azonban vannak olyan helyzetek, amikor a fejlesztőknek programozottan kell kinyerniük a szöveget PDF fájlokból, például a tartalom elemzése, dokumentumok indexelése vagy a PDF-ek szerkeszthető szövegformátumba való átkonvertálása során.

Ebben a cikkben megvizsgáljuk, hogyan lehet szöveget kinyerni PDF fájlokból, és hogyan lehet egy PDF-ből szöveget konvertáló programot készíteni .NET REST API használatával, lehetővé téve a zökkenőmentes és automatizált szövegek kinyerését REST API hívásokon keresztül.

PDF Feldolgozó API

Használja ki az Aspose.PDF Cloud SDK for .NET erejét a PDF fájlok hatékony szövegkinyeréséhez. A szövegkinyerésen kívül az SDK lehetővé teszi, hogy PDF dokumentumokat készítsen a semmiből vagy sablonokból, szerkeszthesse a meglévő PDF-eket, és átkonvertálhassa őket más támogatott formátumokra. Ezenkívül olyan feladatokat is végezhet, mint a PDF fájlok visszafejtése, egyesítése és manipulálása közvetlenül a .NET REST API-n keresztül.

Most kezdéshez szükségünk van az SDK telepítésére a .NET projektünkben.

NuGet\Install-Package Aspose.Pdf-Cloud -Version 25.9.0

Ingyenes fiókot is kell létrehoznunk a Cloud Dashboard oldalon, és meg kell szereznünk a személyre szabott ügyfélinformációinkat.

PDF szöveggé konvertálása C#-ban

Kérjük, kövesse az alább említett lépéseket a szöveg kinyeréséhez PDF fájlból C# .NET használatával.

PdfApi pdfApi = new PdfApi(clientSecret, clientID);

Hozzon létre egy PdfApi osztály objektumot, ahol az előbb megszerzett kliens hitelesítő adatokat adjuk át argumentumként.

String inputFile = "sourceFile.pdf";
var sourceFile = System.IO.File.OpenRead(inputFile);
pdfApi.UploadFile("sourceFile.pdf", sourceFile);

Olvasd be a helyi meghajtóról az input PDF-et, és töltsd fel a felhő tárolásba az UploadFile(...) módszer használatával.

TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);

A PDF fájlban meg kell határoznunk a régiót, ahonnan ki kell nyernünk a szöveges tartalmat a GetText(...) metódus segítségével.

for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
    // write text content in console
    Console.WriteLine(response.TextOccurrences.List[counter].Text);
}

Miután a szöveges tartalmat kivontuk, vagy elmenthetjük a helyi meghajtóra, vagy kiírhatjuk a konzolra.

// További példákért kérjük, látogasson el a következő weboldalra: https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-dotnet

// Get client credentials from https://dashboard.aspose.cloud/
string clientSecret = "XXXXXXXXX";
string clientID = "XXXXXX-XXXXXXX-be35-ff5c3a6aa4a2";

// hozzon létre egy PdfApi objektumot, miközben átadja az ügyféltanúsítványokat argumentumként
PdfApi pdfApi = new PdfApi(clientSecret, clientID);

// Input PDF file name
String inputFile = "input.pdf";
// Töltsd be a PDF fájlt egy stream példányba
var sourceFile = OpenRead(inputFile);

// Töltse fel a PDF fájlt a felhőalapú tárolóra.
pdfApi.UploadFile("inputPDF.pdf", sourceFile);

// A bal alsó sarok X-koordinátája
Double LLX = 200.0;
// A bal alsó sarok Y - koordinátája.
Double LLY = 200.0;
// X - koordináta a jobb felső sarokhoz.
Double URX = 600.0;
// Y - koordinátája a jobb felső saroknak.
Double URY = 650.0;

// Hívja meg az API-t a szöveg kinyeréséhez a megadott koordinátákból.
TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);

// Most most sorban végigmegy az összes szöveges előforduláson és kiíratja a konzolra
// Alternatívaként az outputot közvetlenül .txt fájlba is menthetjük.
for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
    // write text content in console
    Console.WriteLine(response.TextOccurrences.List[counter].Text);
}

PDF-ből szöveg kinyerése cURL használatával

A .NET vagy Java kódrészletek használata mellett PDF fájlokból is kinyerhet szöveget a Aspose.PDF Cloud segítségével cURL parancsok használatával. Tehát ebben a megközelítésben az előfeltétel egy JWT hozzáférési token generálása (az Ön kliens hitelesítő adatai alapján), amelyet az alábbi parancs használatával lehet beszerezni.

Step 1. - Szerezd meg a JWTAccess tokent:

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=XXXXX-XXXXX-XXXXXX-ff5c3a6aa4a2&client_secret=XXXXXXXXXXXX" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Step 1. - Szöveg kinyerése PDF fájlból:

curl -v "https://api.aspose.cloud/v3.0/pdf/{inputPDF}/text?splitRects=true&LLX=10&LLY=10&URX=800&URY=800" \
-X GET \
-H  "accept: application/json" \
-H  "authorization: Bearer {Access_Token}" \
-o "extractedContent.txt"
  • Miután a parancs sikeresen végrehajtásra került, a megadott téglalap alakú területről szöveg kerül kiolvasásra egy szövegfájlba.

Ingyenes PDF Elemző Alkalmazás

Ha tesztelni szeretné az API képességeit kódolás vagy cURL parancsok nélkül, akkor próbálja ki a [Free PDF Parser] alkalmazást, amely a .NET REST APIs fölött készült.

pdf parser app

Záró megjegyzések

Ebben a cikkben megtanultuk a részleteket arról, hogyan integráljuk az Aspose.PDF Cloud SDK-t a .NET projektünkbe szövegkivonási célokra, és egyúttal felfedeztük a lehetőséget, hogy cURL parancsokat használjunk a PDF szövegkivonás elvégzésére parancssori felületen. Tehát, legyen a célod adatelemzés, gépi tanulás, vagy más automatizálási célok, az SDK megbízható eszközökkel ruház fel téged a PDF tartalom hatékony kezelésére. Tedd próbára ezeket a készségeket, és egyszerűsítsd a PDF kezelést, mint egy profi!

Olvasási Anyag

Kapcsolódó cikkek

Javasoljuk, hogy látogasson el a következő linkekre, hogy többet tudjon meg róla: