Ons weet almal dat PDF-lêers een van die belangrikste en mees gebruikte digitale formate is wat gebruik word om dokumente betroubaar aan te bied en uit te ruil, onafhanklik van sagteware, hardeware of bedryfstelsel. In sommige scenario’s kan ons egter belangstel om ’n uittreksel uit groot PDF-lêers te kry. Of ons het dalk ’n vereiste om die PDF na teks aanlyn te stoor. So in hierdie artikel gaan ons die besonderhede verken oor hoe om PDF na teks-omskakelaar te ontwikkel met behulp van Java REST API.
PDF Generator API
Kry die hefboom om PDF-dokumente te genereer met behulp van sjablone of van nuuts af met ons REST API. Terselfdertyd stel die API jou ook in staat om die PDF-lêers te redigeer en te transformeer na ander ondersteunde formate. U kan ook die voordele benut om teks uit PDF te onttrek, PDF-lêers te dekripteer en saam te voeg met Java Cloud SDK. Nou, om die Aspose.PDF Wolk SDK vir Java te gebruik, moet ons die verwysing daarvan in ons Java-toepassing byvoeg deur die volgende besonderhede in pom.xml (maven bou tipe projek) in te sluit.
<repositories>
<repository>
<id>aspose-cloud</id>
<name>artifact.aspose-cloud-releases</name>
<url>http://artifact.aspose.cloud/repo</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-cloud-pdf</artifactId>
<version>21.11.0</version>
<scope>compile</scope>
</dependency>
</dependencies>
Na die installasie moet ons ’n gratis rekening oor Cloud Dashboard skep en persoonlike kliëntbewyse kry.
Onttrek teks uit PDF met Java
Kom ons ondersoek die besonderhede om teks uit PDF te onttrek met behulp van Java Cloud SDK. In hierdie voorbeeld gaan ons die volgende invoer gebruik PdfWithTable.pdf lêer.
// vir meer voorbeelde, besoek asseblief https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-java/tree/master/Examples/src/main/java/com/aspose/asposecloudpdf/examples
try
{
// Kry ClientID en ClientSecret vanaf https://dashboard.aspose.cloud/
String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
// skep 'n instansie van PdfApi
PdfApi pdfApi = new PdfApi(clientSecret,clientId);
// naam van invoer PDF-dokument
String name = "PdfWithTable.pdf";
// lees die inhoud van insette PDF-lêer
File file = new File(name);
// laai PDF na wolkberging op
pdfApi.uploadFile("input.pdf", file, null);
// X-koördinaat van onderste - linkerhoek
Double LLX = 500.0;
// Y - koördinaat van onderste linkerhoek.
Double LLY = 500.0;
// X - koördinaat van regter boonste hoek.
Double URX = 800.0;
// Y - koördinaat van regter boonste hoek.
Double URY = 800.0;
// oproep API om PDF na teks om te skakel
TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);
// Blaai deur individuele teksvoorkoms
for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
{
// skryf teksinhoud in die konsole
System.out.println(response.getTextOccurrences().getList().get(counter).getText());
}
System.out.println("Extract Text from PDF successful !");
}catch(Exception ex)
{
System.out.println(ex);
}
Kom ons probeer nou die bogenoemde kodebrokkie verstaan:
PdfApi pdfApi = new PdfApi(clientSecret,clientId);
Skep ’n instansie van PdfApi terwyl jy die persoonlike geloofsbriewe as argumente deurgee.
File file = new File(name);
pdfApi.uploadFile("input.pdf", file, null);
Lees die invoer-PDF met File-objek en laai dit op na wolkberging deur gebruik te maak van uploadFile(…)-metode van die PdfAPi-klas. Neem asseblief kennis dat die lêer opgelaai is met die naam wat gebruik word in die uploadFile-metode.
TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);
Roep nou getText(..) metode waar ons die naam van die invoer PDF-lêer spesifiseer, reghoekige afmetings op bladsy waaruit ons die tekstuele inhoud moet onttrek en die onttrekte inhoud terugstuur na TextRectsResponse-objek.
response.getTextOccurrences().getList().get(counter).getText()
Ten slotte, om die onttrekte teksinhoud te druk, gaan ons deur alle TextOccurances herhaal en dit in die konsole vertoon.
PDF na teks met behulp van cURL-opdragte
Afgesien van Java-kodebrokkie, kan ons ook pdftotext-bewerking uitvoer met behulp van cURL-opdragte. Nou, een van die voorvereistes vir hierdie benadering is om ’n JWT-toegangtoken te genereer (gebaseer op kliëntgeloofsbriewe) deur die volgende opdrag te gebruik.
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
Sodra die JWT gegenereer is, voer asseblief die volgende opdrag uit om teks uit die PDF-lêer wat reeds in wolkberging beskikbaar is, te onttrek.
curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H "accept: application/json" \
-H "authorization: Bearer <JWT Token>"
Vinnige wenk
Op soek na PDF na teks gratis toepassing! Probeer asseblief ons PDF-ontleder gebruik.
Slotopmerkings
Ten slotte, die onttrekking van teks uit PDF-lêers met Java kan ’n kragtige oplossing wees vir diegene wat hul dataverwerking en -ontledingsbehoeftes wil outomatiseer. Met die hulp van hierdie gids het jy nou ’n stewige fondament om op voort te bou en kan jy maklik jou eie Java-gebaseerde oplossing implementeer vir teksonttrekking uit PDF-dokumente. Of jy nou teks wil onttrek vir data-analise, masjienleer of enige ander doel, Java bied ’n buigsame en betroubare platform vir jou behoeftes. So gaan voort en stel jou nuutverworwe vaardighede op die proef!
As jy belangstel om ander opwindende kenmerke te verken wat deur die API aangebied word, verken asseblief die Produkdokumentasie. Laastens, as jy enige probleem ondervind tydens die gebruik van die API, of as jy enige verwante navraag het, kontak ons asseblief via gratis Product Support Forum.
verwante artikels
Besoek asseblief die volgende skakels om meer te wete te kom oor: