extrahera text från PDF

Extrahera text från PDF i Java

Vi vet alla att PDF-filer är ett av de viktigaste och mest använda digitala formaten som används för att presentera och utbyta dokument på ett tillförlitligt sätt, oberoende av mjukvara, hårdvara eller operativsystem. Men i vissa scenarier kan vi vara intresserade av att få ett utdrag från stora PDF-filer. Eller så kan vi ha ett krav på att spara PDF-filen till text online. Så i den här artikeln kommer vi att utforska detaljerna om hur man utvecklar PDF till textkonverterare med Java REST API.

PDF Generator API

Få hävstångseffekten för att generera PDF-dokument med mallar eller från början med vårt REST API. Samtidigt ger API:et dig också möjlighet att redigera och omvandla PDF-filerna till andra format som stöds. Du kan också dra nytta av fördelarna med att extrahera text från PDF, dekryptera och slå samman PDF-filer med Java Cloud SDK. Nu, för att använda Aspose.PDF Cloud SDK för Java, måste vi lägga till dess referens i vår Java-applikation genom att inkludera följande detaljer i pom.xml (projekt av maven-byggtyp).

<repositories> 
    <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>http://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-cloud-pdf</artifactId>
        <version>21.11.0</version>
        <scope>compile</scope>
    </dependency>
</dependencies>

Efter installationen måste vi skapa ett gratis konto över Cloud Dashboard och skaffa personliga kunduppgifter.

Extrahera text från PDF med Java

Låt oss utforska detaljerna för att extrahera text från PDF med Java Cloud SDK. I det här exemplet kommer vi att använda följande indata PdfWithTable.pdf fil.

pdf till text ocr

Bild 1:- Indatafil för PDF till textextraktion.

pdf till text ocr

Bild 2:- Extrahera text från PDF-förhandsgranskningen

// för fler exempel, besök https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-java/tree/master/Examples/src/main/java/com/aspose/asposecloudpdf/examples

try
    {
    // Hämta ClientID och ClientSecret från https://dashboard.aspose.cloud/
    String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
    String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
		    
    // skapa en instans av PdfApi
    PdfApi pdfApi = new PdfApi(clientSecret,clientId);
    // namn på inmatat PDF-dokument
    String name = "PdfWithTable.pdf";
		        
    // läs innehållet i PDF-filen
    File file = new File(name); 
    // ladda upp PDF till molnlagring
    pdfApi.uploadFile("input.pdf", file, null);
		        
    // X-koordinat för nedre - vänstra hörnet
    Double LLX = 500.0;
    // Y - koordinat för nedre vänstra hörnet.
    Double LLY = 500.0;
    // X - koordinat för övre högra hörnet.
    Double URX = 800.0;
    // Y - koordinat för övre högra hörnet.
    Double URY = 800.0;
			       
    // anrop API för att konvertera PDF till text
    TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);    
		    
    // Gå igenom individuell textförekomst
    for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
    {
        // skriva textinnehåll i konsolen
        System.out.println(response.getTextOccurrences().getList().get(counter).getText());
    }
		  
    System.out.println("Extract Text from PDF successful !");
    }catch(Exception ex)
    {
        System.out.println(ex);
    }

Låt oss nu försöka förstå ovan angivna kodavsnitt:

PdfApi pdfApi = new PdfApi(clientSecret,clientId);

Skapa en instans av PdfApi medan du skickar de personliga referenserna som argument.

File file = new File(name); 
pdfApi.uploadFile("input.pdf", file, null);

Läs indata-PDF-filen med File-objektet och ladda upp den till molnlagring med metoden uploadFile(…) i klassen PdfAPi. Observera att filen laddas upp med det namn som används i uploadFile-metoden.

TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);    

Anropa nu getText(..)-metoden där vi anger namnet på indata-PDF-filen, rektangulära dimensioner på sidan från vilken vi behöver extrahera textinnehållet och returnera det extraherade innehållet till TextRectsResponse-objektet.

response.getTextOccurrences().getList().get(counter).getText()

Slutligen, för att skriva ut det extraherade textinnehållet, kommer vi att iterera igenom alla TextOccurances och visa dem i konsolen.

PDF till text med cURL-kommandon

Förutom Java-kodavsnitt kan vi också utföra pdftotext-operation med hjälp av cURL-kommandon. Nu är en av förutsättningarna för detta tillvägagångssätt att generera en JWT-åtkomsttoken (baserat på klientuppgifter) med följande kommando.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

När JWT har genererats, vänligen kör följande kommando för att extrahera text från PDF-filen som redan är tillgänglig i molnlagring.

curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>"

Snabbt tips

Letar du efter PDF till text gratis app! Försök att använda vår PDF Parser.

Slutord

Sammanfattningsvis kan extrahera text från PDF-filer med Java vara en kraftfull lösning för dem som vill automatisera sin databehandling och analysbehov. Med hjälp av den här guiden har du nu en solid grund att bygga på och kan enkelt implementera din egen Java-baserade lösning för textextraktion från PDF-dokument. Oavsett om du vill extrahera text för dataanalys, maskininlärning eller något annat syfte, tillhandahåller Java en flexibel och pålitlig plattform för dina behov. Så sätt igång och sätt dina nyförvärvade färdigheter på prov!

Om du är intresserad av att utforska andra spännande funktioner som erbjuds av API:t, vänligen utforska Produktdokumentation. Slutligen, om du stöter på något problem när du använder API:t, eller om du har någon relaterad fråga, är du välkommen att kontakta oss via det kostnadsfria Product Support Forum.

relaterade artiklar

Besök följande länkar för att lära dig mer om: