Folosim în mod regulat fișiere PDF, deoarece oferă un suport uimitor pentru conținutul text și imagine. Odată ce aceste elemente au fost plasate în document, aspectul fișierului este păstrat indiferent de platforma pe care o utilizați pentru vizualizarea lor. Dar, este posibil să avem cerința de a extrage imagini PDF. Acest lucru poate fi realizat folosind aplicația de vizualizare PDF, dar trebuie să parcurgeți manual fiecare pagină și să salvați individual fiecare imagine. Mai mult, într-un alt scenariu, dacă aveți PDF bazat pe imagini și trebuie să efectuați PDF OCR, atunci mai întâi trebuie să extrageți toate imaginile și apoi să efectuați operația OCR. Acest lucru devine cu adevărat dificil atunci când aveți un set mare de documente, dar o soluție programatică poate fi o soluție fiabilă și rapidă. Deci, în acest articol, vom explora opțiunile de extragere a imaginilor din PDF folosind Java Cloud SDK
- API-ul de conversie PDF în JPG
- Extrageți imagini PDF în Java
- Salvați imagini PDF utilizând comenzile cURL
API-ul de conversie PDF în JPG
Pentru a converti PDF în JPG sau JPG în PDF în aplicația Java, Aspose.PDF Cloud SDK pentru Java este o alegere uimitoare. În același timp, vă permite, de asemenea, să extrageți imagini din PDF, să extrageți text din PDF, să extrageți atașamente din PDF și oferă o multitudine de opțiuni pentru manipularea PDF. Deci, pentru a implementa caracteristica de salvare a imaginilor PDF în aplicația Java, mai întâi trebuie să adăugăm referința Cloud SDK în proiectul nostru. Așadar, vă rugăm să adăugați următoarele detalii în pom.xml ale proiectului de tip build Maven.
<repositories>
<repository>
<id>aspose-cloud</id>
<name>artifact.aspose-cloud-releases</name>
<url>http://artifact.aspose.cloud/repo</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf-cloud</artifactId>
<version>21.11.0</version>
</dependency>
</dependencies>
Odată ce referința SDK a fost adăugată și nu aveți niciun cont existent pe Aspose Cloud, vă rugăm să creați un cont gratuit folosind o adresă de e-mail validă. Apoi conectați-vă folosind contul nou creat și căutați/creați ID-ul clientului și Secretul clientului la Cloud Dashboard. Aceste detalii sunt necesare în scopuri de autentificare în secțiunile următoare.
Extrageți imagini PDF în Java
Vă rugăm să urmați pașii de mai jos pentru a extrage imagini din PDF și, odată ce operațiunea este finalizată, imaginile sunt stocate într-un folder separat pe stocarea în cloud.
- Mai întâi trebuie să creăm un obiect PdfApi în timp ce furnizăm ClientID și Client secret ca argumente
- În al doilea rând, încărcați fișierul PDF de intrare utilizând instanța Fișier
- Încărcați PDF-ul de intrare în stocarea în cloud utilizând metoda uploadFile(…).
- De asemenea, vom folosi un parametru opțional pentru a seta detaliile de înălțime și lățime pentru imaginile extrase
- În cele din urmă, apelați metoda putImagesExtractAsJpeg(…) care preia numele PDF de intrare, PageNumber pentru a extrage imagini, dimensiunile imaginilor extrase și numele folderului de pe stocarea cloud pentru a salva imaginile extrase
try
{
// Obțineți ClientID și ClientSecret de pe https://dashboard.aspose.cloud/
String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
// creați o instanță de PdfApi
PdfApi pdfApi = new PdfApi(clientSecret,clientId);
// numele documentului PDF de intrare
String inputFile = "marketing.pdf";
// citiți conținutul fișierului PDF de intrare
File file = new File("//Users//"+inputFile);
// încărcați PDF în stocarea în cloud
pdfApi.uploadFile("input.pdf", file, null);
// Pagina de PDF pentru extragerea imaginilor
int pageNumber =1;
// lățime pentru imaginile extrase
int width = 600;
// înălțimea imaginilor extrase
int height = 800;
// folder pentru a salva imaginile extrase
String folderName = "NewFolder";
// Extrageți imagini PDF și salvați în Cloud Storage
pdfApi.putImagesExtractAsJpeg(inputFile, pageNumber, width, height, null, null, folderName);
// tipăriți mesajul de succes
System.out.println("PDF images Successsuly extracted !");
}catch(Exception ex)
{
System.out.println(ex);
}
Exemplul de fișier PDF folosit în exemplul de mai sus poate fi descărcat de la input.pdf.
Salvați imagini PDF utilizând comenzile cURL
Acum vom apela API-ul pentru extragerea imaginilor PDF folosind comenzile cURL. Acum, ca o condiție prealabilă pentru această abordare, mai întâi trebuie să generăm un token de acces JWT (pe baza acreditărilor clientului) în timp ce executăm următoarea comandă.
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
Odată ce avem jetonul JWT, vă rugăm să executați următoarea comandă pentru a salva imaginile PDF într-un dosar separat prin spațiul de stocare în cloud.
curl -X PUT "https://api.aspose.cloud/v3.0/pdf/input_file.pdf/pages/1/images/extract/jpeg?width=0&height=0&destFolder=NewFolder" \
-H "accept: application/json" \
-H "authorization: Bearer <JWT Token>"
Concluzie
După ce ați citit acest articol, ați învățat o abordare simplă, dar de încredere pentru extragerea imaginilor PDF folosind fragmentul de cod Java, precum și prin comenzile cURL. După cum am observat, avem o pârghie pentru a extrage imagini din pagina specificată a fișierului PDF și oferă mai mult control asupra procesului de extracție. Produsul Documentație este îmbogățit cu o serie de subiecte uimitoare care explică în continuare capabilitățile acestui API.
De asemenea, deoarece toate SDK-urile noastre Cloud sunt publicate sub licență MIT, puteți lua în considerare descărcarea codului sursă complet de pe GitHub și modificați-l conform cerințelor dvs. În cazul oricăror probleme, vă recomandăm să ne contactați pentru o rezolvare rapidă prin intermediul gratuit forumul de asistență pentru produse.
Articole similare
Vă rugăm să vizitați următoarele link-uri pentru a afla mai multe despre: