Extrahujte obrázky PDF

Ako extrahovať obrázky PDF pomocou Cloud Java

Pravidelne používame PDF súbory, pretože poskytujú úžasnú podporu pre textový a obrázkový obsah. Po umiestnení týchto prvkov do dokumentu sa rozloženie súboru zachová bez ohľadu na platformu, ktorú používate na ich prezeranie. Môžeme však mať požiadavku na extrahovanie obrázkov PDF. Dá sa to dosiahnuť pomocou aplikácie na zobrazovanie PDF, ale musíte manuálne prechádzať každou stránkou a jednotlivo uložiť každý obrázok. Okrem toho v inom scenári, ak máte PDF založené na obrázkoch a potrebujete vykonať PDF OCR, musíte najprv extrahovať všetky obrázky a potom vykonať operáciu OCR. To je naozaj ťažké, keď máte veľkú sadu dokumentov, ale programové riešenie môže byť spoľahlivým a rýchlym riešením. V tomto článku teda preskúmame možnosti extrahovania obrázkov z PDF pomocou Java Cloud SDK

Rozhranie API na konverziu PDF do JPG

Na konverziu PDF do JPG alebo JPG do PDF v aplikácii Java je úžasnou voľbou Aspose.PDF Cloud SDK for Java. Zároveň vám tiež umožňuje extrahovať obrázky z PDF, extrahovať text z PDF, extrahovať prílohy z PDF, ako aj poskytuje množstvo možností pre manipuláciu s PDF. Aby sme mohli implementovať funkciu na ukladanie obrázkov PDF v aplikácii Java, najprv musíme do nášho projektu pridať referenciu Cloud SDK. Pridajte preto nasledujúce podrobnosti do pom.xml projektu typu zostavy maven.

<repositories> 
    <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>http://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-pdf-cloud</artifactId>
        <version>21.11.0</version>
    </dependency>
</dependencies>

Po pridaní referencie SDK a vy nemáte žiadny existujúci účet v službe Aspose Cloud, vytvorte si bezplatný účet s platnou e-mailovou adresou. Potom sa prihláste pomocou novo vytvoreného účtu a vyhľadajte/vytvorte ID klienta a tajný kľúč klienta na Cloud Dashboard. Tieto podrobnosti sú potrebné na účely overenia v nasledujúcich častiach.

Extrahujte obrázky PDF v jazyku Java

Ak chcete extrahovať obrázky z PDF, postupujte podľa krokov uvedených nižšie a po dokončení operácie sa obrázky uložia do samostatného priečinka na cloudovom úložisku.

  • Najprv musíme vytvoriť objekt PdfApi a zároveň poskytnúť ClientID a Client Secret ako argumenty
  • Po druhé, načítajte vstupný súbor PDF pomocou inštancie súboru
  • Nahrajte vstupný súbor PDF do cloudového úložiska pomocou metódy uploadFile(…).
  • Tiež použijeme voliteľný parameter na nastavenie podrobností o výške a šírke pre extrahované obrázky
  • Nakoniec zavolajte metódu putImagesExtractAsJpeg(…), ktorá prevezme názov súboru PDF, číslo stránky na extrahovanie obrázkov, rozmery extrahovaných obrázkov a názov priečinka v cloudovom úložisku na uloženie extrahovaných obrázkov.
try
    {
    // Získajte ClientID a ClientSecret z https://dashboard.aspose.cloud/
    String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
    String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
	  
    // vytvorte inštanciu PdfApi
    PdfApi pdfApi = new PdfApi(clientSecret,clientId);

    // názov vstupného PDF dokumentu
    String inputFile = "marketing.pdf";

    // čítať obsah vstupného súboru PDF
    File file = new File("//Users//"+inputFile);
	    
    // nahrať PDF do cloudového úložiska
    pdfApi.uploadFile("input.pdf", file, null);

    // Stránka PDF na extrahovanie obrázkov
    int pageNumber =1;

    // šírka extrahovaných obrázkov
    int width = 600;
    // výška extrahovaných obrázkov
    int height = 800;
	    
    // priečinok na uloženie extrahovaných obrázkov
    String folderName = "NewFolder";
	       
    // Extrahujte obrázky PDF a uložte ich do cloudového úložiska
    pdfApi.putImagesExtractAsJpeg(inputFile, pageNumber, width, height, null, null, folderName);
	    
    // vytlačiť správu o úspechu
    System.out.println("PDF images Successsuly extracted !");
    }catch(Exception ex)
    {
        System.out.println(ex);
    }
Extrahovať náhľad obrázkov PDF

Obrázok 1: - Ukážka extrahovania obrázkov PDF

Vzorový súbor PDF použitý vo vyššie uvedenom príklade si môžete stiahnuť z input.pdf.

Uložte obrázky PDF pomocou príkazov cURL

Teraz zavoláme API pre extrakciu obrázkov PDF pomocou príkazov cURL. Teraz ako predpoklad pre tento prístup musíme najprv vygenerovať prístupový token JWT (na základe poverení klienta) pri vykonávaní nasledujúceho príkazu.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Keď máme token JWT, vykonajte nasledujúci príkaz na uloženie obrázkov PDF do samostatného priečinka cez cloudové úložisko.

curl -X PUT "https://api.aspose.cloud/v3.0/pdf/input_file.pdf/pages/1/images/extract/jpeg?width=0&height=0&destFolder=NewFolder" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>"

Záver

Po prečítaní tohto článku ste sa naučili jednoduchý, ale spoľahlivý prístup na extrahovanie obrázkov PDF pomocou útržku kódu Java, ako aj pomocou príkazov cURL. Ako sme si všimli, získame páku na extrahovanie obrázkov zo špecifikovanej stránky súboru PDF a poskytujeme väčšiu kontrolu nad procesom extrakcie. Produkt Dokumentácia je obohatený o množstvo úžasných tém, ktoré ďalej vysvetľujú možnosti tohto API.

Keďže všetky naše cloudové súpravy SDK sú publikované pod licenciou MIT, môžete zvážiť stiahnutie úplného zdrojového kódu z GitHub a jeho úpravu podľa vašich požiadaviek. V prípade akýchkoľvek problémov môžete zvážiť oslovenie nás, aby sme ich rýchlo vyriešili prostredníctvom bezplatného fóra podpory produktov.

Súvisiace články

Ak chcete získať viac informácií, navštívte nasledujúce odkazy: