Pravidelně používáme soubory PDF, protože poskytují úžasnou podporu pro textový a obrázkový obsah. Jakmile jsou tyto prvky umístěny do dokumentu, rozvržení souboru je zachováno bez ohledu na platformu, kterou používáte k jejich prohlížení. Můžeme však mít požadavek na extrahování obrázků PDF. To lze provést pomocí aplikace PDF Viewer, ale musíte ručně procházet každou stránku a jednotlivě uložit každý obrázek. Kromě toho v jiném scénáři, pokud máte PDF založené na obrázcích a potřebujete provést PDF OCR, musíte nejprve extrahovat všechny obrázky a poté provést operaci OCR. To je opravdu obtížné, když máte velkou sadu dokumentů, ale programové řešení může být spolehlivým a rychlým řešením. V tomto článku tedy prozkoumáme možnosti extrahování obrázků z PDF pomocí Java Cloud SDK
- Rozhraní API pro převod PDF do JPG
- Extrahujte obrázky PDF v Javě
- Uložte obrázky PDF pomocí příkazů cURL
Rozhraní API pro převod PDF do JPG
Chcete-li převést PDF do JPG nebo JPG do PDF v aplikaci Java, Aspose.PDF Cloud SDK pro Java je úžasnou volbou. Zároveň vám také umožňuje extrahovat obrázky z PDF, extrahovat text z PDF, extrahovat přílohy z PDF a také poskytuje nepřeberné množství možností pro manipulaci s PDF. Abychom mohli implementovat funkci ukládání obrázků PDF v aplikaci Java, musíme do našeho projektu nejprve přidat referenci Cloud SDK. Přidejte prosím následující podrobnosti do pom.xml projektu typu sestavení maven.
<repositories>
<repository>
<id>aspose-cloud</id>
<name>artifact.aspose-cloud-releases</name>
<url>http://artifact.aspose.cloud/repo</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf-cloud</artifactId>
<version>21.11.0</version>
</dependency>
</dependencies>
Jakmile bude přidána reference SDK a nebudete mít žádný existující účet na Aspose Cloud, vytvořte si prosím bezplatný účet pomocí platné e-mailové adresy. Poté se přihlaste pomocí nově vytvořeného účtu a vyhledejte/vytvořte ID klienta a tajný klíč klienta na Cloud Dashboard. Tyto podrobnosti jsou vyžadovány pro účely ověření v následujících částech.
Extrahujte obrázky PDF v Javě
Při extrahování obrázků z PDF postupujte podle níže uvedených kroků a po dokončení operace se obrázky uloží do samostatné složky na cloudovém úložišti.
- Nejprve musíme vytvořit objekt PdfApi a přitom poskytnout ClientID a Tajný klíč klienta jako argumenty
- Za druhé načtěte vstupní soubor PDF pomocí instance souboru
- Nahrajte vstupní PDF do cloudového úložiště pomocí metody uploadFile(…).
- Také použijeme volitelný parametr k nastavení podrobností o výšce a šířce pro extrahované obrázky
- Nakonec zavolejte metodu putImagesExtractAsJpeg(…), která převezme název souboru PDF, číslo stránky k extrahování obrázků, rozměry extrahovaných obrázků a název složky na cloudovém úložišti k uložení extrahovaných obrázků.
try
{
// Získejte ClientID a ClientSecret z https://dashboard.aspose.cloud/
String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
// vytvořit instanci PdfApi
PdfApi pdfApi = new PdfApi(clientSecret,clientId);
// název vstupního PDF dokumentu
String inputFile = "marketing.pdf";
// číst obsah vstupního souboru PDF
File file = new File("//Users//"+inputFile);
// nahrát PDF do cloudového úložiště
pdfApi.uploadFile("input.pdf", file, null);
// Stránka PDF pro extrahování obrázků
int pageNumber =1;
// šířka pro extrahované obrázky
int width = 600;
// výška extrahovaných obrázků
int height = 800;
// složku pro uložení extrahovaných obrázků
String folderName = "NewFolder";
// Extrahujte obrázky PDF a uložte je do cloudového úložiště
pdfApi.putImagesExtractAsJpeg(inputFile, pageNumber, width, height, null, null, folderName);
// tisk zprávy o úspěchu
System.out.println("PDF images Successsuly extracted !");
}catch(Exception ex)
{
System.out.println(ex);
}
Ukázkový soubor PDF použitý ve výše uvedeném příkladu lze stáhnout z input.pdf.
Uložte obrázky PDF pomocí příkazů cURL
Nyní zavoláme rozhraní API pro extrakci obrázků PDF pomocí příkazů cURL. Nyní jako nezbytný předpoklad pro tento přístup musíme nejprve vygenerovat přístupový token JWT (na základě přihlašovacích údajů klienta) při provádění následujícího příkazu.
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
Jakmile máme token JWT, spusťte prosím následující příkaz a uložte obrázky PDF do samostatné složky v cloudovém úložišti.
curl -X PUT "https://api.aspose.cloud/v3.0/pdf/input_file.pdf/pages/1/images/extract/jpeg?width=0&height=0&destFolder=NewFolder" \
-H "accept: application/json" \
-H "authorization: Bearer <JWT Token>"
Závěr
Po přečtení tohoto článku jste se naučili jednoduchý, ale spolehlivý přístup k extrahování obrázků PDF pomocí úryvku kódu Java a také pomocí příkazů cURL. Jak jsme si všimli, máme možnost extrahovat obrázky ze zadané stránky souboru PDF a poskytuje větší kontrolu nad procesem extrakce. Produkt Dokumentace je obohacen o řadu úžasných témat, která dále vysvětlují možnosti tohoto API.
Protože jsou všechny naše Cloud SDK publikovány pod licencí MIT, můžete zvážit stažení kompletního zdrojového kódu z GitHub a upravit jej podle svých požadavků. V případě jakýchkoliv problémů můžete zvážit, zda se na nás obrátit pro rychlé vyřešení prostřednictvím bezplatného fóra podpory produktů.
Související články
Další informace naleznete na následujících odkazech: