pdf szöveg kibontása

Szöveg kibontása PDF-ből a .NET REST API segítségével.

A PDF dokumentumok a különböző platformokon és eszközökön keresztüli információmegosztás és -csere szabványává váltak. Míg a PDF-ek biztonságos és konzisztens formátumot kínálnak, az alapvető adatok kinyerése ezekből a dokumentumokból ijesztő feladat lehet, különösen nagy mennyiségű információ kezelésekor. Függetlenül attól, hogy elemzéshez, adatbevitelhez vagy tartalomkezeléshez szöveget kell kivonnia, a megbízható és hatékony szövegkivonási megoldás kulcsfontosságú. Ebben a cikkben a PDF-fájlokból a robusztus Aspose.PDF Cloud SDK-n alapuló .NET REST API használatával történő szövegek kinyerésének világát mutatjuk be.

REST API PDF-feldolgozáshoz

Az Aspose.PDF Cloud SDK for .NET egy robusztus és felhasználóbarát API, amely leegyszerűsíti a PDF-ekből a szövegek kinyerését. Az Aspose.PDF Cloud SDK for .NET egyik kiemelkedő tulajdonsága, hogy képes összetett PDF-struktúrákat kezelni, és pontosan kinyerni a szöveget a különböző elrendezésű dokumentumokból. Függetlenül attól, hogy a PDF tartalmaz-e szöveget, képeket, táblázatokat vagy egyéb összetett elemeket, az API intelligensen navigálhat a dokumentumban, és precízen visszakeresheti a szöveges tartalmat. Ezért a hatékony funkciók, a pontosság és az egyszerű integráció ideális választássá teszik értékes szöveges adatok kinyerését PDF-dokumentumokból .NET-alkalmazásaikon belül.

A funkció használatának megkezdéséhez az első lépés a Cloud SDK hivatkozásának hozzáadása a .NET-megoldásunkhoz. Tehát keresse meg az “Aspose.PDF-Cloud” elemet a NuGet csomagkezelőben, és kattintson a “Csomag hozzáadása” gombra. Másodszor, látogasson el a cloud dashboard oldalra, és szerezze be személyre szabott ügyfél-hitelesítő adatait.

PDF-szöveg kibontása C# .NET használatával

Ebben a részben a részleteket vizsgáljuk meg, hogy programozottan kivonhassuk a szöveget a PDF-ből.

// A teljes példákért és adatfájlokért látogasson el ide 
https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-dotnet

// Szerezze be az ügyfél hitelesítő adatait a https://dashboard.aspose.cloud/ webhelyről
string clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
string clientID = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";

// hozzon létre egy PdfApi példányt
PdfApi pdfApi = new PdfApi(clientSecret, clientID);

// Írja be a PDF fájl nevét
String inputFile = "Binder1-1.pdf";
// Olvassa be a PDF-fájl tartalmát adatfolyam-példányba
var sourceFile = System.IO.File.OpenRead(inputFile);

// Töltse fel a PDF-fájlt a felhőtárhelyre
pdfApi.UploadFile("inputPDF.pdf", sourceFile);

// A bal alsó sarok X-koordinátája
Double LLX = 500.0;
// Y - a bal alsó sarok koordinátája.
Double LLY = 500.0;
// X - a jobb felső sarok koordinátája.
Double URX = 800.0;
// Y - a jobb felső sarok koordinátája.
Double URY = 800.0;

// Hívja az API-t, hogy szöveget vonjon ki a PDF-dokumentum bizonyos koordinátáiból
TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);

// Bejárás az egyes szöveges előfordulásokon
for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
    // szöveges tartalom írása a konzolon
    Console.WriteLine(response.TextOccurrences.List[counter].Text);
}
Kivonat pdf szövegből

A PDF dokumentumból húzott szöveg előnézete.

Alább láthatók a fent említett kódrészlet részletei.

PdfApi pdfApi = new PdfApi(clientSecret, clientID);

Először is hozzon létre egy példányt a PdfApi osztályból, ahol argumentumként adjuk át az ügyfél hitelesítő adatait.

String inputFile = "Binder1-1.pdf";
var sourceFile = System.IO.File.OpenRead(inputFile);

Töltse be a bemeneti PDF-fájl tartalmát a streaming példányhoz.

pdfApi.UploadFile("inputPDF.pdf", sourceFile);

Töltse fel a PDF-dokumentumot a felhőtárhelyre.

TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);

Hívja az API-t, hogy bizonyos oldalkoordinátákon szöveget vonjon ki a PDF-fájlból.

for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
    // write text content in console
    Console.WriteLine(response.TextOccurrences.List[counter].Text);
}

Ismételje meg a kivont szöveges előfordulásokat tartalmazó listát, és nyomtassa ki a szövegpéldányokat a konzolon.

Szöveg elemzése PDF-ből a cURL parancsokkal

A cURL parancsok és az Aspose.PDF Cloud API együttes használatával könnyedén kinyerhet szöveges tartalmat a felhőtárhelyen tárolt PDF-fájlokból. Az API számos paramétert támogat a kivonatolási folyamat testreszabásához, lehetővé téve koordináták megadását, valamint egyéb lehetőségeket a szöveg precíz kibontásához.

Ezzel a megközelítéssel az első lépés egy JWT hozzáférési jogkivonat létrehozása a következő parancs végrehajtása közben.

curl -v "https://api.aspose.cloud/connect/token" \
 -X POST \
 -d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
 -H "Content-Type: application/x-www-form-urlencoded" \
 -H "Accept: application/json"

A JWT token létrehozása után hajtsa végre a következő parancsot a szöveg PDF-dokumentumból való kiemeléséhez.

curl -v "https://api.aspose.cloud/v3.0/pdf/{inputPDF}/text?splitRects=true&LLX=10&LLY=10&URX=800&URY=800" \
-X GET \
-H  "accept: application/json" \
-H  "authorization: Bearer {accessToken}" \
-o "extractedContent.txt"

Cserélje ki az „inputPDF” kifejezést a felhőalapú tárhelyen már elérhető PDF-dokumentum nevére, az „accessToken”-t pedig a fent generált JWT-tokenre.

Következtetés

Összefoglalva, mind az Aspose.PDF Cloud SDK for .NET, mind a cURL parancsmegközelítés hatékony és megbízható megoldásokat kínál a PDF-dokumentumok szövegének kinyerésére. A .NET-hez készült Aspose.PDF Cloud SDK átfogó és fejlesztőbarát API-t biztosít a szolgáltatások széles skálájával, így hatékony választás a PDF-szövegkivonat .NET-alkalmazásokba való integrálásához. Másrészt a cURL parancsmegközelítés rugalmas és platformfüggetlen módszert kínál az Aspose.PDF Cloud API-val való interakcióhoz, így kiváló lehetőség a különböző környezetekben és programozási nyelveken dolgozó fejlesztők számára.

Hasznos Linkek

kapcsolódó cikkek

Javasoljuk, hogy látogassa meg az alábbi blogokat: