Bild-PDF in durchsuchbares PDF umwandeln

Bild-PDF in durchsuchbares PDF konvertieren

Für die Langzeitarchivierung von Büchern/Dokumenten besteht einer der schnellsten Ansätze darin, sie als Bilder zu scannen. Falls Sie sie als Broschüre aufbewahren müssen, können alle Bilder auch als einheitliches PDF-Dokument kombiniert werden. Wenn ein PDF-Dokument jedoch aus Bildern besteht, ist es wirklich schwierig, Textinformationen zur weiteren Bearbeitung zu kopieren/extrahieren. Daher werden wir in diesem Artikel die Details zum OCR von PDF-Dateien und zum Konvertieren von nicht durchsuchbaren PDF-Dateien in durchsuchbare PDF-Dateien mit dem Java Cloud SDK besprechen.

OCR-PDF-Java-SDK

Um PDF-Dateien zu erstellen, zu manipulieren und in verschiedene unterstützte Formate umzuwandeln, haben wir Aspose.PDF Cloud entwickelt. Um nun OCR PDF Free in einer Java-Anwendung zu implementieren, müssen wir versuchen, Aspose.PDF Cloud SDK for Java zu verwenden, das ein Wrapper um die Java Cloud API ist. Jetzt ist der erste Schritt bei der Verwendung des SDK seine Installation. Fügen Sie also bitte die folgenden Details in pom.xml des Maven-Build-Typ-Projekts hinzu.

<repositories> 
    <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>http://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-pdf-cloud</artifactId>
        <version>21.11.0</version>
    </dependency>
</dependencies>

Nachdem die JDK-Referenz hinzugefügt wurde, erstellen Sie bitte ein kostenloses Konto über Aspose Cloud. Melden Sie sich mit dem neu erstellten Konto an und suchen/erstellen Sie die Client-ID und das Client-Geheimnis unter Cloud Dashboard. Diese Angaben sind in den nachfolgenden Abschnitten erforderlich.

Gescanntes PDF in durchsuchbares PDF mit Java umwandeln

In diesem Abschnitt wird ausführlich erläutert, wie Sie gescannte PDF-Dateien mithilfe von Java-Code-Snippets in durchsuchbare PDF-Dateien konvertieren. Bitte beachten Sie, dass das Java Cloud SDK die Erkennung der folgenden Sprachen unterstützt: eng, ara, bel, ben, bul, ces, dan, deu, ell, fin, fra, heb, hin, ind, isl, ita, jpn, kor, nld , nor, pol, por, ron, rus, spa, swe, tha, tur, ukr, vie, chisim, chitra oder deren Kombination, zB eng,rus.

  • Der erste Schritt besteht darin, ein PdfApi-Objekt zu erstellen, das ClientID- und Clientgeheimnisdetails als Argumente verwendet
  • Erstellen Sie zweitens eine Dateiinstanz, um OCR-PDF zu laden
  • Rufen Sie drittens die Methode uploadFile(…) auf, um die Eingabe-PDF in den Cloud-Speicher hochzuladen
  • Da unser Bild-PDF englischen Text enthält, müssen wir ein String-Objekt erstellen, das den Wert „eng“ enthält.
  • Rufen Sie schließlich die putSearchableDocument(…)-Methode auf, die Eingabe-PDF und Sprachcode als Argumente erfordert. Das resultierende durchsuchbare PDF wird im selben Cloud-Speicher gespeichert
try
    {
    // Holen Sie sich ClientID und ClientSecret von https://dashboard.aspose.cloud/
    String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
    String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
	  
    // createPdfApi-Instanz
    PdfApi pdfApi = new PdfApi(clientSecret,clientId);
	    				
    // Eingabebild PDF-Dokument
    String name = "ScannedPDF.pdf";	        
	    			    
    // Laden Sie die Datei vom lokalen System
    File file = new File(name);
    // Laden Sie die Datei in den Cloud-Speicher hoch
    FilesUploadResult uploadResponse = pdfApi.uploadFile(name, file, null);
	    				
    // die im Bild-PDF verwendeten Sprachen
    String lang = "eng";
	    				
    //  Führen Sie die OCR für das Bild-PDF-Dokument durch
    AsposeResponse response = pdfApi.putSearchableDocument(name, null, null, lang);
	    
    // Erfolgsmeldung drucken
    System.out.println("OCR PDF successfull !");
    }catch(Exception ex)
    {
        System.out.println(ex.getMessage());
    }
Bild-PDF in durchsuchbares PDF umwandeln

Image1:- Durchsuchbare PDF-Vorschau

Das im obigen Beispiel verwendete gescannte PDF kann von BusinessReport.pdf und das resultierende durchsuchbare PDF von Converted.pdf heruntergeladen werden.

OCR Online mit cURL-Befehlen

Die cURL-Befehle gehören zu den bequemen Ansätzen für den Zugriff auf REST-APIs über das Befehlszeilenterminal. In diesem Abschnitt werden wir also die cURL-Befehle für OCR online verwenden. Als Voraussetzung müssen wir nun zunächst ein JWT-Zugriffstoken (basierend auf Client-Anmeldeinformationen) generieren, während wir den folgenden Befehl ausführen.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Sobald wir das JWT-Token haben, führen Sie bitte den folgenden Befehl aus, um OCR online durchzuführen und Bild-PDF in ein durchsuchbares PDF-Dokument zu konvertieren. Die resultierende Datei wird dann im Cloud-Speicher gespeichert.

curl -v -X GET "https://api.aspose.cloud/v4.0/words/Resultant.docx?format=TIFF&outPath=converted.tiff" \
-H  "accept: application/octet-stream" \
-H  "Authorization: Bearer <JWT Token>"

Fazit

In diesem Artikel haben wir einige einfache, aber erstaunliche Schritte zum Konvertieren von Bild-PDFs in durchsuchbare PDFs mit Java Cloud SDK besprochen. Wir haben also die Möglichkeit, entweder Java-Code-Snippets oder cURL-Befehle zu verwenden, um OCR-PDF zu erreichen. Abgesehen von diesem Ansatz können Sie den Zugriff auf die API im Webbrowser über swagger interface erwägen. Da unsere SDKs außerdem unter einer MIT-Lizenz erstellt werden, kann der vollständige Quellcode von GitHub heruntergeladen werden. Falls Sie bei der Verwendung der APIs auf Probleme stoßen, wenden Sie sich bitte über das Produktsupport-Forum an uns.

In Verbindung stehende Artikel

Wir empfehlen dringend, die folgenden Links zu besuchen, um mehr darüber zu erfahren: