Wszyscy wiemy, że pliki PDF są jednym z najważniejszych i najczęściej używanych formatów cyfrowych służących do niezawodnego prezentowania i wymiany dokumentów, niezależnie od oprogramowania, sprzętu czy systemu operacyjnego. Jednak w niektórych scenariuszach możemy być zainteresowani uzyskaniem fragmentu z dużych plików PDF. Lub możemy mieć wymóg zapisania pliku PDF na tekst online. Dlatego w tym artykule przyjrzymy się szczegółom, jak opracować konwerter plików PDF na tekst za pomocą Java REST API.
- API generatora PDF
- Wyodrębnij tekst z pliku PDF przy użyciu języka Java
- PDF na tekst za pomocą poleceń cURL
API generatora PDF
Skorzystaj z możliwości generowania dokumentów PDF przy użyciu szablonów lub od podstaw przy użyciu naszego interfejsu API REST. Jednocześnie API umożliwia również edycję i przekształcanie plików PDF do innych obsługiwanych formatów. Możesz także czerpać korzyści z wyodrębniania tekstu z plików PDF, odszyfrowywania i scalania plików PDF za pomocą Java Cloud SDK. Teraz, aby korzystać z Aspose.PDF Cloud SDK for Java, musimy dodać jego referencję w naszej aplikacji Java, umieszczając następujące szczegóły w pom.xml (projekt typu kompilacji maven).
<repositories>
<repository>
<id>aspose-cloud</id>
<name>artifact.aspose-cloud-releases</name>
<url>https://artifact.aspose.cloud/repo</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-cloud-pdf</artifactId>
<version>21.11.0</version>
<scope>compile</scope>
</dependency>
</dependencies>
Po instalacji musimy utworzyć bezpłatne konto w Cloud Dashboard i uzyskać spersonalizowane dane uwierzytelniające klienta.
Wyodrębnij tekst z pliku PDF przy użyciu języka Java
Przyjrzyjmy się szczegółom, jak wyodrębnić tekst z pliku PDF za pomocą pakietu Java Cloud SDK. W tym przykładzie użyjemy następującego wejścia PdfWithTable.pdf plik.
// więcej przykładów można znaleźć na stronie https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-java/tree/master/Examples/src/main/java/com/aspose/asposecloudpdf/examples
try
{
// Uzyskaj ClientID i ClientSecret z https://dashboard.aspose.cloud/
String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
// utwórz instancję PdfApi
PdfApi pdfApi = new PdfApi(clientSecret,clientId);
// nazwa wejściowego dokumentu PDF
String name = "PdfWithTable.pdf";
// przeczytaj zawartość wejściowego pliku PDF
File file = new File(name);
// przesłać plik PDF do magazynu w chmurze
pdfApi.uploadFile("input.pdf", file, null);
// Współrzędna X dolnego - lewego rogu
Double LLX = 500.0;
// Y - współrzędna lewego dolnego rogu.
Double LLY = 500.0;
// X - współrzędna prawego górnego rogu.
Double URX = 800.0;
// Y - współrzędna prawego górnego rogu.
Double URY = 800.0;
// wywołaj API, aby przekonwertować plik PDF na tekst
TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);
// Przechodzenie przez poszczególne wystąpienia tekstu
for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
{
// napisz treść tekstową w konsoli
System.out.println(response.getTextOccurrences().getList().get(counter).getText());
}
System.out.println("Extract Text from PDF successful !");
}catch(Exception ex)
{
System.out.println(ex);
}
Teraz spróbujmy zrozumieć powyższy fragment kodu:
PdfApi pdfApi = new PdfApi(clientSecret,clientId);
Utwórz instancję PdfApi, przekazując spersonalizowane poświadczenia jako argumenty.
File file = new File(name);
pdfApi.uploadFile("input.pdf", file, null);
Przeczytaj wejściowy plik PDF za pomocą obiektu File i prześlij go do magazynu w chmurze za pomocą metody uploadFile(…) klasy PdfAPi. Pamiętaj, że plik jest przesyłany z nazwą używaną w metodzie uploadFile.
TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);
Teraz wywołajmy metodę getText(..), w której podajemy nazwę wejściowego pliku PDF, wymiary prostokątne na stronie, z której chcemy wyodrębnić treść tekstową i zwrócić wyodrębnioną treść do obiektu TextRectsResponse.
response.getTextOccurrences().getList().get(counter).getText()
Na koniec, aby wydrukować wyodrębnioną treść tekstową, będziemy iterować przez wszystkie TextOccurances i wyświetlić je w konsoli.
PDF na tekst za pomocą poleceń cURL
Oprócz fragmentu kodu Java możemy również wykonać operację pdftotext za pomocą poleceń cURL. Teraz jednym z wymagań wstępnych dla tego podejścia jest wygenerowanie tokenu dostępu JWT (na podstawie poświadczeń klienta) za pomocą następującego polecenia.
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
Po wygenerowaniu JWT wykonaj następujące polecenie, aby wyodrębnić tekst z pliku PDF dostępnego już w chmurze.
curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H "accept: application/json" \
-H "authorization: Bearer <JWT Token>"
Szybka wskazówka
Szukasz bezpłatnej aplikacji PDF na tekst! Spróbuj użyć naszego PDF Parser.
Uwagi końcowe
Podsumowując, wyodrębnianie tekstu z plików PDF za pomocą języka Java może być potężnym rozwiązaniem dla tych, którzy chcą zautomatyzować swoje potrzeby w zakresie przetwarzania i analizy danych. Z pomocą tego przewodnika masz teraz solidne podstawy, na których możesz budować i łatwo wdrożyć własne rozwiązanie oparte na Javie do wyodrębniania tekstu z dokumentów PDF. Niezależnie od tego, czy chcesz wyodrębnić tekst do analizy danych, uczenia maszynowego czy w jakimkolwiek innym celu, Java zapewnia elastyczną i niezawodną platformę dostosowaną do Twoich potrzeb. Śmiało, sprawdź swoje nowo nabyte umiejętności!
Jeśli chcesz poznać inne ekscytujące funkcje oferowane przez interfejs API, zapoznaj się z Dokumentacją produktu. Na koniec, jeśli napotkasz jakiekolwiek problemy podczas korzystania z interfejsu API lub masz jakiekolwiek związane z tym pytania, skontaktuj się z nami za pośrednictwem bezpłatnego Forum wsparcia produktu.
Powiązane artykuły
Odwiedź poniższe linki, aby dowiedzieć się więcej o: