izvilkt tekstu no PDF

Izņemiet tekstu no PDF Java valodā

Mēs visi zinām, ka PDF faili ir viens no svarīgākajiem un visplašāk izmantotajiem digitālajiem formātiem, ko izmanto, lai droši prezentētu un apmainītos ar dokumentiem neatkarīgi no programmatūras, aparatūras vai operētājsistēmas. Tomēr dažos gadījumos mēs varētu būt ieinteresēti iegūt izvilkumu no lieliem PDF failiem. Vai arī mums var būt prasība saglabāt PDF failu teksta formātā tiešsaistē. Tāpēc šajā rakstā mēs izpētīsim sīkāku informāciju par to, kā izstrādāt PDF uz tekstu pārveidotāju, izmantojot Java REST API.

PDF ģeneratora API

Izmantojiet sviras efektu, lai ģenerētu PDF dokumentus, izmantojot veidnes vai no jauna, izmantojot mūsu REST API. Tajā pašā laikā API ļauj arī rediģēt, kā arī pārveidot PDF failus citos atbalstītos formātos. Varat arī izmantot priekšrocības, ko sniedz teksta izvilkšana no PDF, PDF failu atšifrēšana un sapludināšana, izmantojot Java Cloud SDK. Tagad, lai izmantotu Aspose.PDF Cloud SDK for Java, mums ir jāpievieno tā atsauce mūsu Java lietojumprogrammā, iekļaujot tālāk norādīto informāciju failā pom.xml (maven build type project).

<repositories> 
    <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>http://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-cloud-pdf</artifactId>
        <version>21.11.0</version>
        <scope>compile</scope>
    </dependency>
</dependencies>

Pēc instalēšanas mums ir jāizveido bezmaksas konts, izmantojot Cloud Dashboard, un jāiegūst personalizēti klienta akreditācijas dati.

Izņemiet tekstu no PDF, izmantojot Java

Izpētīsim detalizētu informāciju, lai izvilktu tekstu no PDF, izmantojot Java mākoņa SDK. Šajā piemērā mēs izmantosim šādu ievadi [PdfWithTable.pdf] (https://raw.githubusercontent.com/aspose-pdf-cloud/aspose-pdf-cloud-java/master/testData/PdfWithTable.pdf) failu.

pdf uz tekstu ocr

1. attēls: ievades fails PDF uz teksta iegūšanai.

pdf uz tekstu ocr

  1. attēls: izņemiet tekstu no PDF priekšskatījuma

// Lai iegūtu vairāk piemēru, lūdzu, apmeklējiet vietni https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-java/tree/master/Examples/src/main/java/com/aspose/asposecloudpdf/examples

try
    {
    // Iegūstiet ClientID un ClientSecret no https://dashboard.aspose.cloud/
    String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
    String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
		    
    // izveidot PdfApi gadījumu
    PdfApi pdfApi = new PdfApi(clientSecret,clientId);
    // ievades PDF dokumenta nosaukums
    String name = "PdfWithTable.pdf";
		        
    // lasīt ievades PDF faila saturu
    File file = new File(name); 
    // augšupielādējiet PDF failu mākoņa krātuvē
    pdfApi.uploadFile("input.pdf", file, null);
		        
    // Apakšējā kreisā stūra X-koordināta
    Double LLX = 500.0;
    // Y - apakšējā kreisā stūra koordināte.
    Double LLY = 500.0;
    // X - augšējā labā stūra koordināte.
    Double URX = 800.0;
    // Y - augšējā labā stūra koordināte.
    Double URY = 800.0;
			       
    // zvaniet API, lai PDF pārveidotu par tekstu
    TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);    
		    
    // Pārvietojieties pa atsevišķu teksta gadījumu
    for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
    {
        // rakstīt teksta saturu konsolē
        System.out.println(response.getTextOccurrences().getList().get(counter).getText());
    }
		  
    System.out.println("Extract Text from PDF successful !");
    }catch(Exception ex)
    {
        System.out.println(ex);
    }

Tagad mēģināsim izprast iepriekš norādīto koda fragmentu:

PdfApi pdfApi = new PdfApi(clientSecret,clientId);

Izveidojiet PdfApi gadījumu, vienlaikus nododot personalizētos akreditācijas datus kā argumentus.

File file = new File(name); 
pdfApi.uploadFile("input.pdf", file, null);

Izlasiet ievades PDF failu, izmantojot objektu File, un augšupielādējiet to mākoņkrātuvē, izmantojot PdfAPi klases metodi uploadFile(…). Lūdzu, ņemiet vērā, ka fails ir augšupielādēts ar nosaukumu, kas izmantots augšupielādes faila metodē.

TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);    

Tagad izsauciet metodi getText(..), kur mēs norādām ievades PDF faila nosaukumu, taisnstūra izmērus lapā, no kuras mums ir jāizņem teksta saturs, un atgriež izvilkto saturu TextRectsResponse objektam.

response.getTextOccurrences().getList().get(counter).getText()

Visbeidzot, lai izdrukātu izvilkto teksta saturu, mēs atkārtosim visas TextOccurances un parādīsim tās konsolē.

PDF uz tekstu, izmantojot cURL komandas

Papildus Java koda fragmentam mēs varam veikt arī pdftotext darbību, izmantojot cURL komandas. Tagad viens no šīs pieejas priekšnoteikumiem ir JWT piekļuves pilnvaras (pamatojoties uz klienta akreditācijas datiem) ģenerēšana, izmantojot šo komandu.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Kad JWT ir ģenerēts, lūdzu, izpildiet šo komandu, lai izvilktu tekstu no mākoņa krātuvē jau pieejamā PDF faila.

curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>"

Ātrs padoms

Meklējat bezmaksas lietotni no PDF uz tekstu! Lūdzu, mēģiniet izmantot mūsu [PDF parsētāju] (https://products.aspose.app/pdf/parser).

Noslēguma piezīmes

Visbeidzot, teksta izvilkšana no PDF failiem, izmantojot Java, var būt spēcīgs risinājums tiem, kas vēlas automatizēt savas datu apstrādes un analīzes vajadzības. Izmantojot šo rokasgrāmatu, jums tagad ir stabils pamats, uz kura balstīties, un varat viegli ieviest savu Java risinājumu teksta izvilkšanai no PDF dokumentiem. Neatkarīgi no tā, vai vēlaties iegūt tekstu datu analīzei, mašīnmācībai vai jebkuram citam nolūkam, Java nodrošina elastīgu un uzticamu platformu jūsu vajadzībām. Tāpēc uz priekšu un pārbaudi savas jauniegūtās prasmes!

Ja vēlaties izpētīt citas aizraujošas funkcijas, ko piedāvā API, lūdzu, izpētiet Produkta dokumentāciju. Visbeidzot, ja saskaraties ar jebkādām problēmām, izmantojot API, vai jums ir kādi saistīti jautājumi, lūdzu, sazinieties ar mums, izmantojot bezmaksas produktu atbalsta forumu.

Saistītie raksti

Lūdzu, apmeklējiet šīs saites, lai uzzinātu vairāk par: