Vi ved alle, at PDF-filer er et af de vigtigste og mest udbredte digitale formater, der bruges til at præsentere og udveksle dokumenter pålideligt, uafhængigt af software, hardware eller operativsystem. Men i nogle scenarier kan vi være interesserede i at få et uddrag fra store PDF-filer. Eller vi kan have et krav om at gemme PDF’en til tekst online. Så i denne artikel skal vi udforske detaljerne om, hvordan man udvikler PDF til tekst-konverter ved hjælp af Java REST API.
PDF Generator API
Få mulighed for at generere PDF-dokumenter ved hjælp af skabeloner eller fra bunden ved hjælp af vores REST API. Samtidig giver API’en dig også mulighed for at redigere og transformere PDF-filerne til andre understøttede formater. Du kan også udnytte fordelene ved at udtrække tekst fra PDF, dekryptere og flette PDF-filer ved hjælp af Java Cloud SDK. For nu at bruge Aspose.PDF Cloud SDK for Java, skal vi tilføje dens reference i vores Java-applikation ved at inkludere følgende detaljer i pom.xml (maven build type project).
<repositories>
<repository>
<id>aspose-cloud</id>
<name>artifact.aspose-cloud-releases</name>
<url>https://artifact.aspose.cloud/repo</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-cloud-pdf</artifactId>
<version>21.11.0</version>
<scope>compile</scope>
</dependency>
</dependencies>
Efter installationen skal vi oprette en gratis konto over Cloud Dashboard og få personlige klientoplysninger.
Uddrag tekst fra PDF ved hjælp af Java
Lad os udforske detaljerne for at udtrække tekst fra PDF ved hjælp af Java Cloud SDK. I dette eksempel skal vi bruge følgende input PdfWithTable.pdf fil.
// for flere eksempler, besøg venligst https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-java/tree/master/Examples/src/main/java/com/aspose/asposecloudpdf/examples
try
{
// Få ClientID og ClientSecret fra https://dashboard.aspose.cloud/
String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
// oprette en instans af PdfApi
PdfApi pdfApi = new PdfApi(clientSecret,clientId);
// navn på input PDF-dokument
String name = "PdfWithTable.pdf";
// læse indholdet af input PDF-fil
File file = new File(name);
// upload PDF til skylager
pdfApi.uploadFile("input.pdf", file, null);
// X-koordinat af nederste - venstre hjørne
Double LLX = 500.0;
// Y - koordinat for nederste venstre hjørne.
Double LLY = 500.0;
// X - koordinat for øverste højre hjørne.
Double URX = 800.0;
// Y - koordinat for øverste højre hjørne.
Double URY = 800.0;
// kald API for at konvertere PDF til tekst
TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);
// Gå gennem individuel tekstforekomst
for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
{
// skrive tekstindhold i konsollen
System.out.println(response.getTextOccurrences().getList().get(counter).getText());
}
System.out.println("Extract Text from PDF successful !");
}catch(Exception ex)
{
System.out.println(ex);
}
Lad os nu prøve at forstå ovenstående angivne kodestykke:
PdfApi pdfApi = new PdfApi(clientSecret,clientId);
Opret en forekomst af PdfApi, mens du sender de personlige legitimationsoplysninger som argumenter.
File file = new File(name);
pdfApi.uploadFile("input.pdf", file, null);
Læs input-PDF’en ved hjælp af File-objektet, og upload den til skylageret ved hjælp af uploadFile(…)-metoden fra PdfAPi-klassen. Bemærk venligst, at filen er uploadet med det navn, der bruges i uploadFile-metoden.
TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);
Kald nu getText(..)-metoden, hvor vi angiver navnet på input-PDF-filen, rektangulære dimensioner på siden, hvorfra vi skal udtrække tekstindholdet, og returnere det udpakkede indhold til TextRectsResponse-objektet.
response.getTextOccurrences().getList().get(counter).getText()
Til sidst, for at udskrive det udpakkede tekstindhold, skal vi gentage alle TextOccurances og vise dem i konsollen.
PDF til tekst ved hjælp af cURL-kommandoer
Udover Java-kodestykke kan vi også udføre pdftotext-operation ved hjælp af cURL-kommandoer. Nu er en af forudsætningerne for denne tilgang at generere et JWT-adgangstoken (baseret på klientlegitimationsoplysninger) ved hjælp af følgende kommando.
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
Når JWT er genereret, skal du udføre følgende kommando for at udtrække tekst fra PDF-filen, der allerede er tilgængelig i skylageret.
curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H "accept: application/json" \
-H "authorization: Bearer <JWT Token>"
Hurtigt tip
Leder du efter PDF til tekst gratis app! Prøv at bruge vores PDF-parser.
Afsluttende bemærkninger
Afslutningsvis kan udtrækning af tekst fra PDF-filer ved hjælp af Java være en kraftfuld løsning for dem, der ønsker at automatisere deres databehandlings- og analysebehov. Ved hjælp af denne guide har du nu et solidt fundament at bygge videre på og kan nemt implementere din egen Java-baserede løsning til tekstudtræk fra PDF-dokumenter. Uanset om du ønsker at udtrække tekst til dataanalyse, maskinlæring eller ethvert andet formål, giver Java en fleksibel og pålidelig platform til dine behov. Så gå videre og sæt dine nyerhvervede færdigheder på prøve!
Hvis du er interesseret i at udforske andre spændende funktioner, der tilbydes af API’en, bedes du udforske Produktdokumentation. Til sidst, hvis du støder på et problem, mens du bruger API’en, eller du har en relaterede forespørgsel, er du velkommen til at kontakte os via det gratis Product Support Forum.
relaterede artikler
Besøg venligst følgende links for at lære mere om: