Dokumenty PDF stały się standardem udostępniania i wymiany informacji na różnych platformach i urządzeniach. Chociaż pliki PDF oferują bezpieczny i spójny format, wyodrębnienie z nich niezbędnych danych może być trudnym zadaniem, szczególnie w przypadku dużych ilości informacji. Niezależnie od tego, czy chcesz wyodrębnić tekst do analizy, wprowadzenia danych, czy manipulacji treścią, niezawodne i wydajne rozwiązanie do wyodrębniania tekstu ma kluczowe znaczenie. W tym artykule zagłębiamy się w świat wyodrębniania tekstu z plików PDF przy użyciu interfejsu API .NET REST, obsługiwanego przez solidny pakiet Aspose.PDF Cloud SDK.
- API REST do przetwarzania plików PDF
- Wyodrębnij tekst PDF za pomocą C# .NET
- Analizuj tekst z pliku PDF za pomocą poleceń cURL
API REST do przetwarzania plików PDF
Aspose.PDF Cloud SDK dla .NET to solidny i przyjazny dla użytkownika interfejs API, który upraszcza wyodrębnianie tekstu z plików PDF. Jedną z wyróżniających się funkcji Aspose.PDF Cloud SDK dla .NET jest jego zdolność do obsługi złożonych struktur PDF i dokładnego wyodrębniania tekstu z dokumentów o różnorodnych układach. Niezależnie od tego, czy plik PDF zawiera tekst, obrazy, tabele czy inne złożone elementy, interfejs API może inteligentnie poruszać się po dokumencie i precyzyjnie pobierać treść tekstową. Dlatego też zaawansowane funkcje, dokładność i łatwość integracji sprawiają, że jest to idealny wybór do wyodrębniania cennych danych tekstowych z dokumentów PDF w aplikacjach .NET.
Teraz, aby rozpocząć korzystanie z tej funkcji, pierwszym krokiem jest dodanie odniesienia do Cloud SDK w naszym rozwiązaniu .NET. Wyszukaj więc „Aspose.PDF-Cloud” w menedżerze pakietów NuGet i kliknij przycisk „Dodaj pakiet”. Po drugie, odwiedź panel chmurowy i uzyskaj spersonalizowane dane uwierzytelniające klienta.
Wyodrębnij tekst PDF za pomocą C# .NET
W tej sekcji przyjrzymy się szczegółom programowego wyodrębniania tekstu z pliku PDF.
// Pełne przykłady i pliki danych można znaleźć na stronie
https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-dotnet
// Uzyskaj dane uwierzytelniające klienta z https://dashboard.aspose.cloud/
string clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
string clientID = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
// utwórz instancję PdfApi
PdfApi pdfApi = new PdfApi(clientSecret, clientID);
// Wprowadź nazwę pliku PDF
String inputFile = "Binder1-1.pdf";
// Przeczytaj zawartość pliku PDF w instancji strumienia
var sourceFile = System.IO.File.OpenRead(inputFile);
// Prześlij plik PDF do magazynu w chmurze
pdfApi.UploadFile("inputPDF.pdf", sourceFile);
// Współrzędna X lewego dolnego narożnika
Double LLX = 500.0;
// Y - współrzędna lewego dolnego narożnika.
Double LLY = 500.0;
// X - współrzędna prawego górnego rogu.
Double URX = 800.0;
// Y - współrzędna prawego górnego narożnika.
Double URY = 800.0;
// Wywołaj API, aby wyodrębnić tekst z określonych współrzędnych w dokumencie PDF
TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);
// Przechodzenie przez pojedyncze wystąpienia tekstu
for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
// napisz treść tekstową w konsoli
Console.WriteLine(response.TextOccurrences.List[counter].Text);
}
Poniżej podano szczegóły dotyczące powyższego fragmentu kodu.
PdfApi pdfApi = new PdfApi(clientSecret, clientID);
Najpierw utwórz instancję klasy PdfApi, w której przekazujemy referencje klienta jako argumenty.
String inputFile = "Binder1-1.pdf";
var sourceFile = System.IO.File.OpenRead(inputFile);
Załaduj zawartość wejściowego pliku PDF do instancji strumieniowej.
pdfApi.UploadFile("inputPDF.pdf", sourceFile);
Prześlij dokument PDF do magazynu w chmurze.
TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);
Wywołaj interfejs API, aby wyodrębnić tekst z pliku PDF pod określonymi współrzędnymi strony.
for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
// write text content in console
Console.WriteLine(response.TextOccurrences.List[counter].Text);
}
Iteruj po liście zawierającej wyodrębnione wystąpienia tekstu i wydrukuj wystąpienia tekstu w konsoli.
Analizuj tekst z pliku PDF za pomocą poleceń cURL
Używając poleceń cURL w połączeniu z Aspose.PDF Cloud API, możesz bez wysiłku wyodrębnić treść tekstową z plików PDF przechowywanych w chmurze. Interfejs API obsługuje wiele parametrów umożliwiających dostosowanie procesu wyodrębniania, umożliwiając określenie współrzędnych i innych opcji precyzyjnego wyodrębniania tekstu.
Pierwszym krokiem w tym podejściu jest wygenerowanie tokena dostępu JWT podczas wykonywania następującego polecenia.
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
Po wygenerowaniu tokena JWT wykonaj następujące polecenie, aby pobrać tekst z dokumentu PDF.
curl -v "https://api.aspose.cloud/v3.0/pdf/{inputPDF}/text?splitRects=true&LLX=10&LLY=10&URX=800&URY=800" \
-X GET \
-H "accept: application/json" \
-H "authorization: Bearer {accessToken}" \
-o "extractedContent.txt"
Zastąp „inputPDF” nazwą dokumentu PDF już dostępnego w chmurze, a „accessToken” wygenerowanym powyżej tokenem JWT.
Wniosek
Podsumowując, zarówno Aspose.PDF Cloud SDK dla .NET, jak i podejście oparte na poleceniach cURL oferują wydajne i niezawodne rozwiązania do wyodrębniania tekstu z dokumentów PDF. Aspose.PDF Cloud SDK dla .NET zapewnia wszechstronne i przyjazne dla programistów API z szeroką gamą funkcji, co czyni go potężnym wyborem do integracji ekstrakcji tekstu PDF z aplikacjami .NET. Z drugiej strony podejście oparte na poleceniach cURL oferuje elastyczną i niezależną od platformy metodę interakcji z Aspose.PDF Cloud API, co czyni go doskonałą opcją dla programistów pracujących w różnych środowiskach i językach programowania.
Przydatne linki
Powiązane artykuły
Gorąco polecamy odwiedzenie następujących blogów: