wyodrębnij tekst w formacie PDF

Wyodrębnij tekst z pliku PDF za pomocą interfejsu API .NET REST.

Dokumenty PDF stały się standardem udostępniania i wymiany informacji na różnych platformach i urządzeniach. Chociaż pliki PDF oferują bezpieczny i spójny format, wyodrębnienie z nich niezbędnych danych może być trudnym zadaniem, szczególnie w przypadku dużych ilości informacji. Niezależnie od tego, czy chcesz wyodrębnić tekst do analizy, wprowadzenia danych, czy manipulacji treścią, niezawodne i wydajne rozwiązanie do wyodrębniania tekstu ma kluczowe znaczenie. W tym artykule zagłębiamy się w świat wyodrębniania tekstu z plików PDF przy użyciu interfejsu API .NET REST, obsługiwanego przez solidny pakiet Aspose.PDF Cloud SDK.

API REST do przetwarzania plików PDF

Aspose.PDF Cloud SDK dla .NET to solidny i przyjazny dla użytkownika interfejs API, który upraszcza wyodrębnianie tekstu z plików PDF. Jedną z wyróżniających się funkcji Aspose.PDF Cloud SDK dla .NET jest jego zdolność do obsługi złożonych struktur PDF i dokładnego wyodrębniania tekstu z dokumentów o różnorodnych układach. Niezależnie od tego, czy plik PDF zawiera tekst, obrazy, tabele czy inne złożone elementy, interfejs API może inteligentnie poruszać się po dokumencie i precyzyjnie pobierać treść tekstową. Dlatego też zaawansowane funkcje, dokładność i łatwość integracji sprawiają, że jest to idealny wybór do wyodrębniania cennych danych tekstowych z dokumentów PDF w aplikacjach .NET.

Teraz, aby rozpocząć korzystanie z tej funkcji, pierwszym krokiem jest dodanie odniesienia do Cloud SDK w naszym rozwiązaniu .NET. Wyszukaj więc „Aspose.PDF-Cloud” w menedżerze pakietów NuGet i kliknij przycisk „Dodaj pakiet”. Po drugie, odwiedź panel chmurowy i uzyskaj spersonalizowane dane uwierzytelniające klienta.

Wyodrębnij tekst PDF za pomocą C# .NET

W tej sekcji przyjrzymy się szczegółom programowego wyodrębniania tekstu z pliku PDF.

// Pełne przykłady i pliki danych można znaleźć na stronie 
https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-dotnet

// Uzyskaj dane uwierzytelniające klienta z https://dashboard.aspose.cloud/
string clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
string clientID = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";

// utwórz instancję PdfApi
PdfApi pdfApi = new PdfApi(clientSecret, clientID);

// Wprowadź nazwę pliku PDF
String inputFile = "Binder1-1.pdf";
// Przeczytaj zawartość pliku PDF w instancji strumienia
var sourceFile = System.IO.File.OpenRead(inputFile);

// Prześlij plik PDF do magazynu w chmurze
pdfApi.UploadFile("inputPDF.pdf", sourceFile);

// Współrzędna X lewego dolnego narożnika
Double LLX = 500.0;
// Y - współrzędna lewego dolnego narożnika.
Double LLY = 500.0;
// X - współrzędna prawego górnego rogu.
Double URX = 800.0;
// Y - współrzędna prawego górnego narożnika.
Double URY = 800.0;

// Wywołaj API, aby wyodrębnić tekst z określonych współrzędnych w dokumencie PDF
TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);

// Przechodzenie przez pojedyncze wystąpienia tekstu
for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
    // napisz treść tekstową w konsoli
    Console.WriteLine(response.TextOccurrences.List[counter].Text);
}
Wyodrębnij tekst PDF

Podgląd tekstu pobranego z dokumentu PDF.

Poniżej podano szczegóły dotyczące powyższego fragmentu kodu.

PdfApi pdfApi = new PdfApi(clientSecret, clientID);

Najpierw utwórz instancję klasy PdfApi, w której przekazujemy referencje klienta jako argumenty.

String inputFile = "Binder1-1.pdf";
var sourceFile = System.IO.File.OpenRead(inputFile);

Załaduj zawartość wejściowego pliku PDF do instancji strumieniowej.

pdfApi.UploadFile("inputPDF.pdf", sourceFile);

Prześlij dokument PDF do magazynu w chmurze.

TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);

Wywołaj interfejs API, aby wyodrębnić tekst z pliku PDF pod określonymi współrzędnymi strony.

for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
    // write text content in console
    Console.WriteLine(response.TextOccurrences.List[counter].Text);
}

Iteruj po liście zawierającej wyodrębnione wystąpienia tekstu i wydrukuj wystąpienia tekstu w konsoli.

Analizuj tekst z pliku PDF za pomocą poleceń cURL

Używając poleceń cURL w połączeniu z Aspose.PDF Cloud API, możesz bez wysiłku wyodrębnić treść tekstową z plików PDF przechowywanych w chmurze. Interfejs API obsługuje wiele parametrów umożliwiających dostosowanie procesu wyodrębniania, umożliwiając określenie współrzędnych i innych opcji precyzyjnego wyodrębniania tekstu.

Pierwszym krokiem w tym podejściu jest wygenerowanie tokena dostępu JWT podczas wykonywania następującego polecenia.

curl -v "https://api.aspose.cloud/connect/token" \
 -X POST \
 -d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
 -H "Content-Type: application/x-www-form-urlencoded" \
 -H "Accept: application/json"

Po wygenerowaniu tokena JWT wykonaj następujące polecenie, aby pobrać tekst z dokumentu PDF.

curl -v "https://api.aspose.cloud/v3.0/pdf/{inputPDF}/text?splitRects=true&LLX=10&LLY=10&URX=800&URY=800" \
-X GET \
-H  "accept: application/json" \
-H  "authorization: Bearer {accessToken}" \
-o "extractedContent.txt"

Zastąp „inputPDF” nazwą dokumentu PDF już dostępnego w chmurze, a „accessToken” wygenerowanym powyżej tokenem JWT.

Wniosek

Podsumowując, zarówno Aspose.PDF Cloud SDK dla .NET, jak i podejście oparte na poleceniach cURL oferują wydajne i niezawodne rozwiązania do wyodrębniania tekstu z dokumentów PDF. Aspose.PDF Cloud SDK dla .NET zapewnia wszechstronne i przyjazne dla programistów API z szeroką gamą funkcji, co czyni go potężnym wyborem do integracji ekstrakcji tekstu PDF z aplikacjami .NET. Z drugiej strony podejście oparte na poleceniach cURL oferuje elastyczną i niezależną od platformy metodę interakcji z Aspose.PDF Cloud API, co czyni go doskonałą opcją dla programistów pracujących w różnych środowiskach i językach programowania.

Przydatne linki

Powiązane artykuły

Gorąco polecamy odwiedzenie następujących blogów: