wyodrębnić tekst z pliku PDF

Wyodrębnij tekst z pliku PDF w Javie

Wszyscy wiemy, że pliki PDF są jednym z najważniejszych i najczęściej używanych formatów cyfrowych służących do niezawodnego prezentowania i wymiany dokumentów, niezależnie od oprogramowania, sprzętu czy systemu operacyjnego. Jednak w niektórych scenariuszach możemy być zainteresowani uzyskaniem fragmentu z dużych plików PDF. Lub możemy mieć wymóg zapisania pliku PDF na tekst online. Dlatego w tym artykule przyjrzymy się szczegółom, jak opracować konwerter plików PDF na tekst za pomocą Java REST API.

API generatora PDF

Skorzystaj z możliwości generowania dokumentów PDF przy użyciu szablonów lub od podstaw przy użyciu naszego interfejsu API REST. Jednocześnie API umożliwia również edycję i przekształcanie plików PDF do innych obsługiwanych formatów. Możesz także czerpać korzyści z wyodrębniania tekstu z plików PDF, odszyfrowywania i scalania plików PDF za pomocą Java Cloud SDK. Teraz, aby korzystać z Aspose.PDF Cloud SDK for Java, musimy dodać jego referencję w naszej aplikacji Java, umieszczając następujące szczegóły w pom.xml (projekt typu kompilacji maven).

<repositories> 
    <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>http://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-cloud-pdf</artifactId>
        <version>21.11.0</version>
        <scope>compile</scope>
    </dependency>
</dependencies>

Po instalacji musimy utworzyć bezpłatne konto w Cloud Dashboard i uzyskać spersonalizowane dane uwierzytelniające klienta.

Wyodrębnij tekst z pliku PDF przy użyciu języka Java

Przyjrzyjmy się szczegółom, jak wyodrębnić tekst z pliku PDF za pomocą pakietu Java Cloud SDK. W tym przykładzie użyjemy następującego wejścia PdfWithTable.pdf plik.

pdf na tekst ocr

Obraz 1: - Plik wejściowy do ekstrakcji PDF do tekstu.

pdf na tekst ocr

Obraz 2: - Wyodrębnij tekst z podglądu PDF

// więcej przykładów można znaleźć na stronie https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-java/tree/master/Examples/src/main/java/com/aspose/asposecloudpdf/examples

try
    {
    // Uzyskaj ClientID i ClientSecret z https://dashboard.aspose.cloud/
    String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
    String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
		    
    // utwórz instancję PdfApi
    PdfApi pdfApi = new PdfApi(clientSecret,clientId);
    // nazwa wejściowego dokumentu PDF
    String name = "PdfWithTable.pdf";
		        
    // przeczytaj zawartość wejściowego pliku PDF
    File file = new File(name); 
    // przesłać plik PDF do magazynu w chmurze
    pdfApi.uploadFile("input.pdf", file, null);
		        
    // Współrzędna X dolnego - lewego rogu
    Double LLX = 500.0;
    // Y - współrzędna lewego dolnego rogu.
    Double LLY = 500.0;
    // X - współrzędna prawego górnego rogu.
    Double URX = 800.0;
    // Y - współrzędna prawego górnego rogu.
    Double URY = 800.0;
			       
    // wywołaj API, aby przekonwertować plik PDF na tekst
    TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);    
		    
    // Przechodzenie przez poszczególne wystąpienia tekstu
    for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
    {
        // napisz treść tekstową w konsoli
        System.out.println(response.getTextOccurrences().getList().get(counter).getText());
    }
		  
    System.out.println("Extract Text from PDF successful !");
    }catch(Exception ex)
    {
        System.out.println(ex);
    }

Teraz spróbujmy zrozumieć powyższy fragment kodu:

PdfApi pdfApi = new PdfApi(clientSecret,clientId);

Utwórz instancję PdfApi, przekazując spersonalizowane poświadczenia jako argumenty.

File file = new File(name); 
pdfApi.uploadFile("input.pdf", file, null);

Przeczytaj wejściowy plik PDF za pomocą obiektu File i prześlij go do magazynu w chmurze za pomocą metody uploadFile(…) klasy PdfAPi. Pamiętaj, że plik jest przesyłany z nazwą używaną w metodzie uploadFile.

TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);    

Teraz wywołajmy metodę getText(..), w której podajemy nazwę wejściowego pliku PDF, wymiary prostokątne na stronie, z której chcemy wyodrębnić treść tekstową i zwrócić wyodrębnioną treść do obiektu TextRectsResponse.

response.getTextOccurrences().getList().get(counter).getText()

Na koniec, aby wydrukować wyodrębnioną treść tekstową, będziemy iterować przez wszystkie TextOccurances i wyświetlić je w konsoli.

PDF na tekst za pomocą poleceń cURL

Oprócz fragmentu kodu Java możemy również wykonać operację pdftotext za pomocą poleceń cURL. Teraz jednym z wymagań wstępnych dla tego podejścia jest wygenerowanie tokenu dostępu JWT (na podstawie poświadczeń klienta) za pomocą następującego polecenia.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Po wygenerowaniu JWT wykonaj następujące polecenie, aby wyodrębnić tekst z pliku PDF dostępnego już w chmurze.

curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>"

Szybka wskazówka

Szukasz bezpłatnej aplikacji PDF na tekst! Spróbuj użyć naszego PDF Parser.

Uwagi końcowe

Podsumowując, wyodrębnianie tekstu z plików PDF za pomocą języka Java może być potężnym rozwiązaniem dla tych, którzy chcą zautomatyzować swoje potrzeby w zakresie przetwarzania i analizy danych. Z pomocą tego przewodnika masz teraz solidne podstawy, na których możesz budować i łatwo wdrożyć własne rozwiązanie oparte na Javie do wyodrębniania tekstu z dokumentów PDF. Niezależnie od tego, czy chcesz wyodrębnić tekst do analizy danych, uczenia maszynowego czy w jakimkolwiek innym celu, Java zapewnia elastyczną i niezawodną platformę dostosowaną do Twoich potrzeb. Śmiało, sprawdź swoje nowo nabyte umiejętności!

Jeśli chcesz poznać inne ekscytujące funkcje oferowane przez interfejs API, zapoznaj się z Dokumentacją produktu. Na koniec, jeśli napotkasz jakiekolwiek problemy podczas korzystania z interfejsu API lub masz jakiekolwiek związane z tym pytania, skontaktuj się z nami za pośrednictwem bezpłatnego Forum wsparcia produktu.

Powiązane artykuły

Odwiedź poniższe linki, aby dowiedzieć się więcej o: