Pravidelne používame PDF súbory, pretože poskytujú úžasnú podporu pre textový a obrázkový obsah. Po umiestnení týchto prvkov do dokumentu sa rozloženie súboru zachová bez ohľadu na platformu, ktorú používate na ich prezeranie. Môžeme však mať požiadavku na extrahovanie obrázkov PDF. Dá sa to dosiahnuť pomocou aplikácie na zobrazovanie PDF, ale musíte manuálne prechádzať každou stránkou a jednotlivo uložiť každý obrázok. Okrem toho v inom scenári, ak máte PDF založené na obrázkoch a potrebujete vykonať PDF OCR, musíte najprv extrahovať všetky obrázky a potom vykonať operáciu OCR. To je naozaj ťažké, keď máte veľkú sadu dokumentov, ale programové riešenie môže byť spoľahlivým a rýchlym riešením. V tomto článku teda preskúmame možnosti extrahovania obrázkov z PDF pomocou Java Cloud SDK
- Rozhranie API na konverziu PDF do JPG
- Extrahujte obrázky PDF v jazyku Java
- Uložte obrázky PDF pomocou príkazov cURL
Rozhranie API na konverziu PDF do JPG
Na konverziu PDF do JPG alebo JPG do PDF v aplikácii Java je úžasnou voľbou Aspose.PDF Cloud SDK for Java. Zároveň vám tiež umožňuje extrahovať obrázky z PDF, extrahovať text z PDF, extrahovať prílohy z PDF, ako aj poskytuje množstvo možností pre manipuláciu s PDF. Aby sme mohli implementovať funkciu na ukladanie obrázkov PDF v aplikácii Java, najprv musíme do nášho projektu pridať referenciu Cloud SDK. Pridajte preto nasledujúce podrobnosti do pom.xml projektu typu zostavy maven.
<repositories>
<repository>
<id>aspose-cloud</id>
<name>artifact.aspose-cloud-releases</name>
<url>http://artifact.aspose.cloud/repo</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf-cloud</artifactId>
<version>21.11.0</version>
</dependency>
</dependencies>
Po pridaní referencie SDK a vy nemáte žiadny existujúci účet v službe Aspose Cloud, vytvorte si bezplatný účet s platnou e-mailovou adresou. Potom sa prihláste pomocou novo vytvoreného účtu a vyhľadajte/vytvorte ID klienta a tajný kľúč klienta na Cloud Dashboard. Tieto podrobnosti sú potrebné na účely overenia v nasledujúcich častiach.
Extrahujte obrázky PDF v jazyku Java
Ak chcete extrahovať obrázky z PDF, postupujte podľa krokov uvedených nižšie a po dokončení operácie sa obrázky uložia do samostatného priečinka na cloudovom úložisku.
- Najprv musíme vytvoriť objekt PdfApi a zároveň poskytnúť ClientID a Client Secret ako argumenty
- Po druhé, načítajte vstupný súbor PDF pomocou inštancie súboru
- Nahrajte vstupný súbor PDF do cloudového úložiska pomocou metódy uploadFile(…).
- Tiež použijeme voliteľný parameter na nastavenie podrobností o výške a šírke pre extrahované obrázky
- Nakoniec zavolajte metódu putImagesExtractAsJpeg(…), ktorá prevezme názov súboru PDF, číslo stránky na extrahovanie obrázkov, rozmery extrahovaných obrázkov a názov priečinka v cloudovom úložisku na uloženie extrahovaných obrázkov.
try
{
// Získajte ClientID a ClientSecret z https://dashboard.aspose.cloud/
String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
// vytvorte inštanciu PdfApi
PdfApi pdfApi = new PdfApi(clientSecret,clientId);
// názov vstupného PDF dokumentu
String inputFile = "marketing.pdf";
// čítať obsah vstupného súboru PDF
File file = new File("//Users//"+inputFile);
// nahrať PDF do cloudového úložiska
pdfApi.uploadFile("input.pdf", file, null);
// Stránka PDF na extrahovanie obrázkov
int pageNumber =1;
// šírka extrahovaných obrázkov
int width = 600;
// výška extrahovaných obrázkov
int height = 800;
// priečinok na uloženie extrahovaných obrázkov
String folderName = "NewFolder";
// Extrahujte obrázky PDF a uložte ich do cloudového úložiska
pdfApi.putImagesExtractAsJpeg(inputFile, pageNumber, width, height, null, null, folderName);
// vytlačiť správu o úspechu
System.out.println("PDF images Successsuly extracted !");
}catch(Exception ex)
{
System.out.println(ex);
}
Vzorový súbor PDF použitý vo vyššie uvedenom príklade si môžete stiahnuť z input.pdf.
Uložte obrázky PDF pomocou príkazov cURL
Teraz zavoláme API pre extrakciu obrázkov PDF pomocou príkazov cURL. Teraz ako predpoklad pre tento prístup musíme najprv vygenerovať prístupový token JWT (na základe poverení klienta) pri vykonávaní nasledujúceho príkazu.
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
Keď máme token JWT, vykonajte nasledujúci príkaz na uloženie obrázkov PDF do samostatného priečinka cez cloudové úložisko.
curl -X PUT "https://api.aspose.cloud/v3.0/pdf/input_file.pdf/pages/1/images/extract/jpeg?width=0&height=0&destFolder=NewFolder" \
-H "accept: application/json" \
-H "authorization: Bearer <JWT Token>"
Záver
Po prečítaní tohto článku ste sa naučili jednoduchý, ale spoľahlivý prístup na extrahovanie obrázkov PDF pomocou útržku kódu Java, ako aj pomocou príkazov cURL. Ako sme si všimli, získame páku na extrahovanie obrázkov zo špecifikovanej stránky súboru PDF a poskytujeme väčšiu kontrolu nad procesom extrakcie. Produkt Dokumentácia je obohatený o množstvo úžasných tém, ktoré ďalej vysvetľujú možnosti tohto API.
Keďže všetky naše cloudové súpravy SDK sú publikované pod licenciou MIT, môžete zvážiť stiahnutie úplného zdrojového kódu z GitHub a jeho úpravu podľa vašich požiadaviek. V prípade akýchkoľvek problémov môžete zvážiť oslovenie nás, aby sme ich rýchlo vyriešili prostredníctvom bezplatného fóra podpory produktov.
Súvisiace články
Ak chcete získať viac informácií, navštívte nasledujúce odkazy: