udtræk tekst fra PDF

Uddrag tekst fra PDF i Java

Vi ved alle, at PDF-filer er et af de vigtigste og mest udbredte digitale formater, der bruges til at præsentere og udveksle dokumenter pålideligt, uafhængigt af software, hardware eller operativsystem. Men i nogle scenarier kan vi være interesserede i at få et uddrag fra store PDF-filer. Eller vi kan have et krav om at gemme PDF’en til tekst online. Så i denne artikel skal vi udforske detaljerne om, hvordan man udvikler PDF til tekst-konverter ved hjælp af Java REST API.

PDF Generator API

Få mulighed for at generere PDF-dokumenter ved hjælp af skabeloner eller fra bunden ved hjælp af vores REST API. Samtidig giver API’en dig også mulighed for at redigere og transformere PDF-filerne til andre understøttede formater. Du kan også udnytte fordelene ved at udtrække tekst fra PDF, dekryptere og flette PDF-filer ved hjælp af Java Cloud SDK. For nu at bruge Aspose.PDF Cloud SDK for Java, skal vi tilføje dens reference i vores Java-applikation ved at inkludere følgende detaljer i pom.xml (maven build type project).

<repositories> 
    <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>https://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-cloud-pdf</artifactId>
        <version>21.11.0</version>
        <scope>compile</scope>
    </dependency>
</dependencies>

Efter installationen skal vi oprette en gratis konto over Cloud Dashboard og få personlige klientoplysninger.

Uddrag tekst fra PDF ved hjælp af Java

Lad os udforske detaljerne for at udtrække tekst fra PDF ved hjælp af Java Cloud SDK. I dette eksempel skal vi bruge følgende input PdfWithTable.pdf fil.

pdf til tekst ocr

Billede 1:- Inputfil til PDF til tekstudtrækning.

pdf til tekst ocr

Billede 2:- Udtræk tekst fra PDF-eksempel

// for flere eksempler, besøg venligst https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-java/tree/master/Examples/src/main/java/com/aspose/asposecloudpdf/examples

try
    {
    // Få ClientID og ClientSecret fra https://dashboard.aspose.cloud/
    String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
    String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
		    
    // oprette en instans af PdfApi
    PdfApi pdfApi = new PdfApi(clientSecret,clientId);
    // navn på input PDF-dokument
    String name = "PdfWithTable.pdf";
		        
    // læse indholdet af input PDF-fil
    File file = new File(name); 
    // upload PDF til skylager
    pdfApi.uploadFile("input.pdf", file, null);
		        
    // X-koordinat af nederste - venstre hjørne
    Double LLX = 500.0;
    // Y - koordinat for nederste venstre hjørne.
    Double LLY = 500.0;
    // X - koordinat for øverste højre hjørne.
    Double URX = 800.0;
    // Y - koordinat for øverste højre hjørne.
    Double URY = 800.0;
			       
    // kald API for at konvertere PDF til tekst
    TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);    
		    
    // Gå gennem individuel tekstforekomst
    for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
    {
        // skrive tekstindhold i konsollen
        System.out.println(response.getTextOccurrences().getList().get(counter).getText());
    }
		  
    System.out.println("Extract Text from PDF successful !");
    }catch(Exception ex)
    {
        System.out.println(ex);
    }

Lad os nu prøve at forstå ovenstående angivne kodestykke:

PdfApi pdfApi = new PdfApi(clientSecret,clientId);

Opret en forekomst af PdfApi, mens du sender de personlige legitimationsoplysninger som argumenter.

File file = new File(name); 
pdfApi.uploadFile("input.pdf", file, null);

Læs input-PDF’en ved hjælp af File-objektet, og upload den til skylageret ved hjælp af uploadFile(…)-metoden fra PdfAPi-klassen. Bemærk venligst, at filen er uploadet med det navn, der bruges i uploadFile-metoden.

TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);    

Kald nu getText(..)-metoden, hvor vi angiver navnet på input-PDF-filen, rektangulære dimensioner på siden, hvorfra vi skal udtrække tekstindholdet, og returnere det udpakkede indhold til TextRectsResponse-objektet.

response.getTextOccurrences().getList().get(counter).getText()

Til sidst, for at udskrive det udpakkede tekstindhold, skal vi gentage alle TextOccurances og vise dem i konsollen.

PDF til tekst ved hjælp af cURL-kommandoer

Udover Java-kodestykke kan vi også udføre pdftotext-operation ved hjælp af cURL-kommandoer. Nu er en af forudsætningerne for denne tilgang at generere et JWT-adgangstoken (baseret på klientlegitimationsoplysninger) ved hjælp af følgende kommando.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Når JWT er genereret, skal du udføre følgende kommando for at udtrække tekst fra PDF-filen, der allerede er tilgængelig i skylageret.

curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>"

Hurtigt tip

Leder du efter PDF til tekst gratis app! Prøv at bruge vores PDF-parser.

Afsluttende bemærkninger

Afslutningsvis kan udtrækning af tekst fra PDF-filer ved hjælp af Java være en kraftfuld løsning for dem, der ønsker at automatisere deres databehandlings- og analysebehov. Ved hjælp af denne guide har du nu et solidt fundament at bygge videre på og kan nemt implementere din egen Java-baserede løsning til tekstudtræk fra PDF-dokumenter. Uanset om du ønsker at udtrække tekst til dataanalyse, maskinlæring eller ethvert andet formål, giver Java en fleksibel og pålidelig platform til dine behov. Så gå videre og sæt dine nyerhvervede færdigheder på prøve!

Hvis du er interesseret i at udforske andre spændende funktioner, der tilbydes af API’en, bedes du udforske Produktdokumentation. Til sidst, hvis du støder på et problem, mens du bruger API’en, eller du har en relaterede forespørgsel, er du velkommen til at kontakte os via det gratis Product Support Forum.

relaterede artikler

Besøg venligst følgende links for at lære mere om: