A PDF dokumentumok a különböző platformokon és eszközökön keresztüli információmegosztás és -csere szabványává váltak. Míg a PDF-ek biztonságos és konzisztens formátumot kínálnak, az alapvető adatok kinyerése ezekből a dokumentumokból ijesztő feladat lehet, különösen nagy mennyiségű információ kezelésekor. Függetlenül attól, hogy elemzéshez, adatbevitelhez vagy tartalomkezeléshez szöveget kell kivonnia, a megbízható és hatékony szövegkivonási megoldás kulcsfontosságú. Ebben a cikkben a PDF-fájlokból a robusztus Aspose.PDF Cloud SDK-n alapuló .NET REST API használatával történő szövegek kinyerésének világát mutatjuk be.
- REST API PDF-feldolgozáshoz
- PDF-szöveg kibontása C# .NET használatával
- Szöveg elemzése PDF-ből a cURL parancsokkal
REST API PDF-feldolgozáshoz
Az Aspose.PDF Cloud SDK for .NET egy robusztus és felhasználóbarát API, amely leegyszerűsíti a PDF-ekből a szövegek kinyerését. Az Aspose.PDF Cloud SDK for .NET egyik kiemelkedő tulajdonsága, hogy képes összetett PDF-struktúrákat kezelni, és pontosan kinyerni a szöveget a különböző elrendezésű dokumentumokból. Függetlenül attól, hogy a PDF tartalmaz-e szöveget, képeket, táblázatokat vagy egyéb összetett elemeket, az API intelligensen navigálhat a dokumentumban, és precízen visszakeresheti a szöveges tartalmat. Ezért a hatékony funkciók, a pontosság és az egyszerű integráció ideális választássá teszik értékes szöveges adatok kinyerését PDF-dokumentumokból .NET-alkalmazásaikon belül.
A funkció használatának megkezdéséhez az első lépés a Cloud SDK hivatkozásának hozzáadása a .NET-megoldásunkhoz. Tehát keresse meg az “Aspose.PDF-Cloud” elemet a NuGet csomagkezelőben, és kattintson a “Csomag hozzáadása” gombra. Másodszor, látogasson el a cloud dashboard oldalra, és szerezze be személyre szabott ügyfél-hitelesítő adatait.
PDF-szöveg kibontása C# .NET használatával
Ebben a részben a részleteket vizsgáljuk meg, hogy programozottan kivonhassuk a szöveget a PDF-ből.
// A teljes példákért és adatfájlokért látogasson el ide
https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-dotnet
// Szerezze be az ügyfél hitelesítő adatait a https://dashboard.aspose.cloud/ webhelyről
string clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
string clientID = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
// hozzon létre egy PdfApi példányt
PdfApi pdfApi = new PdfApi(clientSecret, clientID);
// Írja be a PDF fájl nevét
String inputFile = "Binder1-1.pdf";
// Olvassa be a PDF-fájl tartalmát adatfolyam-példányba
var sourceFile = System.IO.File.OpenRead(inputFile);
// Töltse fel a PDF-fájlt a felhőtárhelyre
pdfApi.UploadFile("inputPDF.pdf", sourceFile);
// A bal alsó sarok X-koordinátája
Double LLX = 500.0;
// Y - a bal alsó sarok koordinátája.
Double LLY = 500.0;
// X - a jobb felső sarok koordinátája.
Double URX = 800.0;
// Y - a jobb felső sarok koordinátája.
Double URY = 800.0;
// Hívja az API-t, hogy szöveget vonjon ki a PDF-dokumentum bizonyos koordinátáiból
TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);
// Bejárás az egyes szöveges előfordulásokon
for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
// szöveges tartalom írása a konzolon
Console.WriteLine(response.TextOccurrences.List[counter].Text);
}
Alább láthatók a fent említett kódrészlet részletei.
PdfApi pdfApi = new PdfApi(clientSecret, clientID);
Először is hozzon létre egy példányt a PdfApi osztályból, ahol argumentumként adjuk át az ügyfél hitelesítő adatait.
String inputFile = "Binder1-1.pdf";
var sourceFile = System.IO.File.OpenRead(inputFile);
Töltse be a bemeneti PDF-fájl tartalmát a streaming példányhoz.
pdfApi.UploadFile("inputPDF.pdf", sourceFile);
Töltse fel a PDF-dokumentumot a felhőtárhelyre.
TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);
Hívja az API-t, hogy bizonyos oldalkoordinátákon szöveget vonjon ki a PDF-fájlból.
for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
// write text content in console
Console.WriteLine(response.TextOccurrences.List[counter].Text);
}
Ismételje meg a kivont szöveges előfordulásokat tartalmazó listát, és nyomtassa ki a szövegpéldányokat a konzolon.
Szöveg elemzése PDF-ből a cURL parancsokkal
A cURL parancsok és az Aspose.PDF Cloud API együttes használatával könnyedén kinyerhet szöveges tartalmat a felhőtárhelyen tárolt PDF-fájlokból. Az API számos paramétert támogat a kivonatolási folyamat testreszabásához, lehetővé téve koordináták megadását, valamint egyéb lehetőségeket a szöveg precíz kibontásához.
Ezzel a megközelítéssel az első lépés egy JWT hozzáférési jogkivonat létrehozása a következő parancs végrehajtása közben.
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
A JWT token létrehozása után hajtsa végre a következő parancsot a szöveg PDF-dokumentumból való kiemeléséhez.
curl -v "https://api.aspose.cloud/v3.0/pdf/{inputPDF}/text?splitRects=true&LLX=10&LLY=10&URX=800&URY=800" \
-X GET \
-H "accept: application/json" \
-H "authorization: Bearer {accessToken}" \
-o "extractedContent.txt"
Cserélje ki az „inputPDF” kifejezést a felhőalapú tárhelyen már elérhető PDF-dokumentum nevére, az „accessToken”-t pedig a fent generált JWT-tokenre.
Következtetés
Összefoglalva, mind az Aspose.PDF Cloud SDK for .NET, mind a cURL parancsmegközelítés hatékony és megbízható megoldásokat kínál a PDF-dokumentumok szövegének kinyerésére. A .NET-hez készült Aspose.PDF Cloud SDK átfogó és fejlesztőbarát API-t biztosít a szolgáltatások széles skálájával, így hatékony választás a PDF-szövegkivonat .NET-alkalmazásokba való integrálásához. Másrészt a cURL parancsmegközelítés rugalmas és platformfüggetlen módszert kínál az Aspose.PDF Cloud API-val való interakcióhoz, így kiváló lehetőség a különböző környezetekben és programozási nyelveken dolgozó fejlesztők számára.
Hasznos Linkek
kapcsolódó cikkek
Javasoljuk, hogy látogassa meg az alábbi blogokat: