Një skedar PDF zakonisht përbëhet nga Tekst, Imazhi, Titulli, Annotimet dhe elementë të tjerë. Dhe duke qenë se ky format ruan paraqitjen e dokumentit nëpër platforma (Desktop / Celular etj), kështu që përdoret gjerësisht për të shkëmbyer informacione në internet. Megjithatë, ne mund të kemi një kërkesë për të nxjerrë përmbajtjen tekstuale të dokumentit PDF për përpunim të mëtejshëm. Pra, në këtë artikull, ne do të diskutojmë detajet se si të nxjerrim tekstin nga PDF duke përdorur Java Cloud SDK. Pasi të përfundojë operacioni, dalja ruhet në formatin TXT.
- API për konvertimin e PDF në TXT
- PDF në tekst në Java
- Ekstraktoni tekstin nga PDF duke përdorur komandat cURL
API për konvertimin e PDF në TXT
Aspose.PDF Cloud SDK për Java është zgjidhja jonë fituese e çmimeve REST API që ofron aftësi për të krijuar, modifikuar dhe konvertuar PDF në JPG, XPS, HTML, DOCX dhe shumëllojshmëri të formateve të tjera të mbështetura. Tani për të zbatuar aftësitë e njohjes së tekstit pdf në aplikacionin Java, ju lutemi shtoni detajet e mëposhtme në pom.xml të projektit të llojit të ndërtimit të maven.
<repositories>
<repository>
<id>aspose-cloud</id>
<name>artifact.aspose-cloud-releases</name>
<url>https://artifact.aspose.cloud/repo</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf-cloud</artifactId>
<version>21.11.0</version>
</dependency>
</dependencies>
Pas instalimit të SDK-së, hapi tjetër i rëndësishëm është krijimi i një llogarie falas mbi Aspose Cloud. Pra, ju lutemi identifikohuni duke përdorur llogarinë e krijuar rishtazi dhe kërkoni/krijoni ID-në e klientit dhe sekretin e klientit në Paneli i Cloud. Këto detaje kërkohen në seksionet vijuese.
PDF në tekst në Java
Ju lutemi ndiqni hapat e dhënë më poshtë për të kryer konvertimin PDF në Tekst duke përdorur Java Cloud SDK. Pra, pas konvertimit të suksesshëm, skedari TXT që rezulton ruhet në ruajtjen e cloud.
- Së pari ne duhet të krijojmë një objekt PdfApi duke ofruar ClientID dhe sekretin e klientit si argumente
- Së dyti, ngarkoni skedarin e hyrjes PDF duke përdorur shembullin e skedarit
- Ngarkoni PDF-në e hyrjes në ruajtjen e resë kompjuterike duke përdorur metodën uploadFile(…).
- Krijo variabël Integer që specifikon numrin e faqes së PDF-së për nxjerrjen e tekstit dhe instanca të dyfishta që tregojnë rajonin drejtkëndor të faqes nga i cili duhet të nxjerrim përmbajtjen tekstuale
- Më në fund thirrni metodën getPageText(…) për të marrë përmbajtje tekstuale nga PDF-ja hyrëse
try
{
// Merrni ClientID dhe ClientSecret nga https://dashboard.aspose.cloud/
String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
// krijoni një shembull të PdfApi
PdfApi pdfApi = new PdfApi(clientSecret,clientId);
// emri i dokumentit të hyrjes PDF
String inputFile = "marketing.pdf";
// lexoni përmbajtjen e skedarit PDF hyrës
File file = new File("//Users//"+inputFile);
// ngarkoni PDF në ruajtjen e cloud
pdfApi.uploadFile("input.pdf", file, null);
// faqe specifike e PDF-së për konvertim
int pageNumber =1;
// Koordinata X e këndit të poshtëm - të majtë
Double LLX = 0.0;
// Y - koordinata e këndit të poshtëm të majtë.
Double LLY = 0.0;
// X - koordinata e këndit të sipërm të djathtë.
Double URX = 800.0;
// Y - koordinata e këndit të sipërm të djathtë.
Double URY = 800.0;
// telefononi API-në për të kthyer PDF në tekst
TextRectsResponse response = pdfApi.getPageText(inputFile, pageNumber, LLX, LLY, URX, URY, null, null, true, null, "default");
// shembull rezultues i skedarit TXT
FileWriter myWriter = new FileWriter("filename.txt");
// Tani kaloni nëpër dukuri individuale të tekstit, merrni rezultatin e printimit në tastierë
for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
{
// shkruani përmbajtjen e tekstit në skedarin TXT
myWriter.write(response.getTextOccurrences().getList().get(counter).getText());
}
// mbyllni mbajtësin TXT
myWriter.close();
System.out.println("Text successfully extracted from PDF !");
}catch(Exception ex)
{
System.out.println(ex);
}
Shembulli i skedarit PDF të përdorur në shembullin e mësipërm mund të shkarkohet nga marketing.pdf dhe extracted.txt
Ekstraktoni tekstin nga PDF duke përdorur komandat cURL
API-të REST mund të aksesohen lehtësisht përmes komandave cURL, kështu që në këtë seksion, ne do të shqyrtojmë opsionin se si mund të nxjerrim përmbajtje tekstuale nga PDF duke përdorur komandat cURL. Pra, si një parakusht, së pari duhet të gjenerojmë një shenjë hyrjeje JWT (bazuar në kredencialet e klientit) gjatë ekzekutimit të komandës së mëposhtme.
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
Pasi të kemi tokenin JWT, duhet të ekzekutojmë komandën e mëposhtme për të nxjerrë të gjitha ndodhitë e tekstit brenda dokumentit PDF.
curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H "accept: application/json" \
-H "authorization: Bearer <JWT Token>"
konkluzioni
Ky artikull ka shpjeguar detajet se si të konvertohet PDF në TXT duke përdorur Java Cloud SDK. Në të njëjtën kohë, ne kemi eksploruar edhe opsionet për nxjerrjen e tekstit nga PDF duke përdorur komandat cURL. Pra, me fleksibilitetin e kalimit midis faqeve të shumta PDF, ne marrim një kontroll se ku të nxjerrim përmbajtjen. Ne ju rekomandojmë shumë të eksploroni produktin Dokumentacioni për të mësuar më tej rreth veçorive të tjera emocionuese që ofrohen nga Java Cloud API. Gjithashtu, duke qenë se të gjitha Cloud SDK-të tona janë publikuar nën licencën MIT, kështu që ju mund të merrni parasysh shkarkimin e kodit të plotë burimor nga GitHub dhe ta modifikoni atë sipas kërkesave tuaja. Në rast të ndonjë problemi, mund të konsideroni të na kontaktoni për një zgjidhje të shpejtë nëpërmjet [forumit të mbështetjes së produktit] falas.
Artikuj të ngjashëm
Ju lutemi vizitoni lidhjet e mëposhtme për të mësuar më shumë rreth: