Da PDF immagine a PDF ricercabile

Converti immagine PDF in PDF ricercabile

Per l’archiviazione a lungo termine di libri/documenti, uno degli approcci più rapidi è scansionarli come immagini. Inoltre, nel caso sia necessario conservarle come opuscolo, tutte le immagini possono essere combinate in un documento PDF unificato. Tuttavia, se un documento PDF è composto da immagini, è davvero difficile copiare/estrarre qualsiasi informazione testuale per ulteriori manipolazioni. Quindi, in questo articolo, discuteremo i dettagli su come eseguire l’OCR dei file PDF e convertire PDF non ricercabili in PDF ricercabili utilizzando Java cloud SDK.

OCR PDF Java SDK

Per creare, manipolare e trasformare i file PDF in una varietà di formati supportati, abbiamo sviluppato Aspose.PDF Cloud. Ora, per implementare OCR PDF Free nell’applicazione Java, dobbiamo provare a utilizzare Aspose.PDF Cloud SDK for Java che è un wrapper dell’API Java Cloud. Ora il primo passo nell’utilizzo dell’SDK è la sua installazione. Quindi, per favore, aggiungi i seguenti dettagli in pom.xml del progetto di tipo build maven.

<repositories> 
    <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>http://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-pdf-cloud</artifactId>
        <version>21.11.0</version>
    </dependency>
</dependencies>

Una volta aggiunto il riferimento JDK, creare un account gratuito su Aspose Cloud. Accedi utilizzando l’account appena creato e cerca/crea l’ID client e il segreto client su Cloud Dashboard. Questi dettagli sono richiesti nelle sezioni successive.

PDF scansionato in PDF ricercabile utilizzando Java

Questa sezione spiega i dettagli su come convertire i PDF scansionati in PDF ricercabili utilizzando lo snippet di codice Java. Tieni presente che Java Cloud SDK supporta il riconoscimento delle seguenti lingue: eng, ara, bel, ben, bul, ces, dan, deu, ell, fin, fra, heb, hin, ind, isl, ita, jpn, kor, nld , né, pol, por, ron, rus, spa, swe, tha, tur, ukr, vie, chisim, chitra o la loro combinazione eg eng,rus.

  • Il primo passaggio consiste nel creare un oggetto PdfApi che accetti i dettagli ClientID e Client secret come argomenti
  • In secondo luogo, crea un’istanza File per caricare OCR PDF
  • In terzo luogo, chiama il metodo uploadFile(…) per caricare il PDF di input nell’archivio cloud
  • Poiché la nostra immagine PDF contiene testo in inglese, quindi dobbiamo creare un oggetto stringa contenente il valore “eng”
  • Infine, chiama il metodo putSearchableDocument(…) che richiede il PDF di input e il codice della lingua come argomenti. Il PDF ricercabile risultante viene archiviato nello stesso archivio cloud
try
    {
    // Ottieni ClientID e ClientSecret da https://dashboard.aspose.cloud/
    String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
    String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
	  
    // createPdfApi istanza
    PdfApi pdfApi = new PdfApi(clientSecret,clientId);
	    				
    // immagine di input documento PDF
    String name = "ScannedPDF.pdf";	        
	    			    
    // Carica il file dal sistema locale
    File file = new File(name);
    // caricare il file nell'archivio cloud
    FilesUploadResult uploadResponse = pdfApi.uploadFile(name, file, null);
	    				
    // le lingue utilizzate nell'immagine PDF
    String lang = "eng";
	    				
    //  eseguire l'OCR sul documento PDF dell'immagine
    AsposeResponse response = pdfApi.putSearchableDocument(name, null, null, lang);
	    
    // stampa messaggio di successo
    System.out.println("OCR PDF successfull !");
    }catch(Exception ex)
    {
        System.out.println(ex.getMessage());
    }
Da PDF immagine a PDF ricercabile

Image1:- Anteprima PDF ricercabile

Il PDF scansionato utilizzato nell’esempio precedente può essere scaricato da BusinessReport.pdf e il PDF ricercabile risultante da Converted.pdf

OCR online utilizzando i comandi cURL

I comandi cURL sono tra gli approcci convenienti per accedere alle API REST tramite il terminale della riga di comando. Quindi in questa sezione utilizzeremo i comandi cURL per l’OCR online. Ora, come prerequisito, dobbiamo prima generare un token di accesso JWT (basato sulle credenziali del client) durante l’esecuzione del seguente comando.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Una volta ottenuto il token JWT, eseguire il seguente comando per eseguire l’OCR online e convertire il PDF immagine in un documento PDF ricercabile. Il file risultante viene quindi archiviato nel cloud storage.

curl -v -X GET "https://api.aspose.cloud/v4.0/words/Resultant.docx?format=TIFF&outPath=converted.tiff" \
-H  "accept: application/octet-stream" \
-H  "Authorization: Bearer <JWT Token>"

Conclusione

In questo articolo, abbiamo discusso alcuni passaggi semplici ma sorprendenti per convertire Image PDF in PDF ricercabile utilizzando Java Cloud SDK. Quindi otteniamo un’opzione per utilizzare lo snippet di codice Java o i comandi cURL per eseguire l’OCR PDF. Oltre a questo approccio, potresti prendere in considerazione l’accesso all’API all’interno del browser Web tramite interfaccia swagger. Inoltre, poiché i nostri SDK sono realizzati con una licenza MIT, il codice sorgente completo può essere scaricato da GitHub. In caso di problemi durante l’utilizzo delle API, non esitare a contattarci tramite il forum di supporto del prodotto.

articoli Correlati

Consigliamo vivamente di visitare i seguenti link per saperne di più su: