Extrahujte obrázky PDF

Jak extrahovat obrázky PDF pomocí Cloud Java

Pravidelně používáme soubory PDF, protože poskytují úžasnou podporu pro textový a obrázkový obsah. Jakmile jsou tyto prvky umístěny do dokumentu, rozvržení souboru je zachováno bez ohledu na platformu, kterou používáte k jejich prohlížení. Můžeme však mít požadavek na extrahování obrázků PDF. To lze provést pomocí aplikace PDF Viewer, ale musíte ručně procházet každou stránku a jednotlivě uložit každý obrázek. Kromě toho v jiném scénáři, pokud máte PDF založené na obrázcích a potřebujete provést PDF OCR, musíte nejprve extrahovat všechny obrázky a poté provést operaci OCR. To je opravdu obtížné, když máte velkou sadu dokumentů, ale programové řešení může být spolehlivým a rychlým řešením. V tomto článku tedy prozkoumáme možnosti extrahování obrázků z PDF pomocí Java Cloud SDK

Rozhraní API pro převod PDF do JPG

Chcete-li převést PDF do JPG nebo JPG do PDF v aplikaci Java, Aspose.PDF Cloud SDK pro Java je úžasnou volbou. Zároveň vám také umožňuje extrahovat obrázky z PDF, extrahovat text z PDF, extrahovat přílohy z PDF a také poskytuje nepřeberné množství možností pro manipulaci s PDF. Abychom mohli implementovat funkci ukládání obrázků PDF v aplikaci Java, musíme do našeho projektu nejprve přidat referenci Cloud SDK. Přidejte prosím následující podrobnosti do pom.xml projektu typu sestavení maven.

<repositories> 
    <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>http://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-pdf-cloud</artifactId>
        <version>21.11.0</version>
    </dependency>
</dependencies>

Jakmile bude přidána reference SDK a nebudete mít žádný existující účet na Aspose Cloud, vytvořte si prosím bezplatný účet pomocí platné e-mailové adresy. Poté se přihlaste pomocí nově vytvořeného účtu a vyhledejte/vytvořte ID klienta a tajný klíč klienta na Cloud Dashboard. Tyto podrobnosti jsou vyžadovány pro účely ověření v následujících částech.

Extrahujte obrázky PDF v Javě

Při extrahování obrázků z PDF postupujte podle níže uvedených kroků a po dokončení operace se obrázky uloží do samostatné složky na cloudovém úložišti.

  • Nejprve musíme vytvořit objekt PdfApi a přitom poskytnout ClientID a Tajný klíč klienta jako argumenty
  • Za druhé načtěte vstupní soubor PDF pomocí instance souboru
  • Nahrajte vstupní PDF do cloudového úložiště pomocí metody uploadFile(…).
  • Také použijeme volitelný parametr k nastavení podrobností o výšce a šířce pro extrahované obrázky
  • Nakonec zavolejte metodu putImagesExtractAsJpeg(…), která převezme název souboru PDF, číslo stránky k extrahování obrázků, rozměry extrahovaných obrázků a název složky na cloudovém úložišti k uložení extrahovaných obrázků.
try
    {
    // Získejte ClientID a ClientSecret z https://dashboard.aspose.cloud/
    String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
    String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
	  
    // vytvořit instanci PdfApi
    PdfApi pdfApi = new PdfApi(clientSecret,clientId);

    // název vstupního PDF dokumentu
    String inputFile = "marketing.pdf";

    // číst obsah vstupního souboru PDF
    File file = new File("//Users//"+inputFile);
	    
    // nahrát PDF do cloudového úložiště
    pdfApi.uploadFile("input.pdf", file, null);

    // Stránka PDF pro extrahování obrázků
    int pageNumber =1;

    // šířka pro extrahované obrázky
    int width = 600;
    // výška extrahovaných obrázků
    int height = 800;
	    
    // složku pro uložení extrahovaných obrázků
    String folderName = "NewFolder";
	       
    // Extrahujte obrázky PDF a uložte je do cloudového úložiště
    pdfApi.putImagesExtractAsJpeg(inputFile, pageNumber, width, height, null, null, folderName);
	    
    // tisk zprávy o úspěchu
    System.out.println("PDF images Successsuly extracted !");
    }catch(Exception ex)
    {
        System.out.println(ex);
    }
Náhled extrahovat obrázky PDF

Obrázek 1: - Náhled obrázků ve formátu PDF

Ukázkový soubor PDF použitý ve výše uvedeném příkladu lze stáhnout z input.pdf.

Uložte obrázky PDF pomocí příkazů cURL

Nyní zavoláme rozhraní API pro extrakci obrázků PDF pomocí příkazů cURL. Nyní jako nezbytný předpoklad pro tento přístup musíme nejprve vygenerovat přístupový token JWT (na základě přihlašovacích údajů klienta) při provádění následujícího příkazu.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Jakmile máme token JWT, spusťte prosím následující příkaz a uložte obrázky PDF do samostatné složky v cloudovém úložišti.

curl -X PUT "https://api.aspose.cloud/v3.0/pdf/input_file.pdf/pages/1/images/extract/jpeg?width=0&height=0&destFolder=NewFolder" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>"

Závěr

Po přečtení tohoto článku jste se naučili jednoduchý, ale spolehlivý přístup k extrahování obrázků PDF pomocí úryvku kódu Java a také pomocí příkazů cURL. Jak jsme si všimli, máme možnost extrahovat obrázky ze zadané stránky souboru PDF a poskytuje větší kontrolu nad procesem extrakce. Produkt Dokumentace je obohacen o řadu úžasných témat, která dále vysvětlují možnosti tohoto API.

Protože jsou všechny naše Cloud SDK publikovány pod licencí MIT, můžete zvážit stažení kompletního zdrojového kódu z GitHub a upravit jej podle svých požadavků. V případě jakýchkoliv problémů můžete zvážit, zda se na nás obrátit pro rychlé vyřešení prostřednictvím bezplatného fóra podpory produktů.

Související články

Další informace naleznete na následujících odkazech: