
Le immagini sono una delle componenti integrali per la condivisione dei dati e alcune applicazioni rendono direttamente il contenuto sorgente in formato PDF. Ma questa comodità aumenta i costi quando dobbiamo cercare determinati contenuti all’interno del documento. In tale scenario, bisogna esaminare manualmente l’intero documento per trovare le informazioni rilevanti. Quindi l’approccio consigliato è sempre quello di generare file che siano ricercabili e facili da gestire. Tuttavia, se hai ricevuto i file PDF in cui non puoi controllare il formato dei documenti alla fonte, quindi per l’archiviazione e l’indicizzazione dei dati, dobbiamo convertire tali documenti in un formato ricercabile. In questo articolo, discuteremo i dettagli su come eseguire l’OCR PDF online e convertire i file PDF scansionati/immagine in documenti PDF ricercabili/di testo.
- API di elaborazione PDF
- OCR PDF tramite il comando cURL
- Converti PDF scansionati in ricercabili in Java
API di elaborazione PDF
Aspose.PDF Cloud è la nostra pluripremiata API di creazione e manipolazione PDF basata sull’architettura REST. Utilizzando la stessa API, puoi eseguire una varietà di operazioni come Converti EPUB in PDF, Converti HTML in PDF, Converti XPS in PDF, Converti DOC e Doc X in PDF, Converti XPS in PDF, inserire immagini in file PDF nuovi o esistenti, ecc. Tutte queste operazioni vengono eseguite nel cloud e pertanto, l’API è accessibile da qualsiasi piattaforma.
OCR PDF tramite il comando cURL
I comandi cURL sono un modo semplice per accedere ad Aspose.PDF Cloud tramite il terminale della riga di comando. Ma prima di accedere alle API, devi prima visitare Aspose.Cloud dashboard e se hai un account GitHub o Google, semplicemente Registrati. Altrimenti, clicca sul pulsante Crea un nuovo account e fornisci le informazioni richieste. Ora accedi alla dashboard utilizzando le credenziali ed espandi la sezione Applicazioni dalla dashboard e scorri verso il basso fino alla sezione Credenziali client per vedere i dettagli ID client e Segreto client.
Il passo successivo è generare il JSON Web Token (JWT) in modo che le API siano accessibili tramite il prompt dei comandi.
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=a41d01ef-dfd5-4e02-ad29-bd85fe41e3e4&client_secret=d87269aade6a46cdc295b711e26809af" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
Una volta ottenuto il token JWT, eseguiamo il seguente comando cURL nel terminale della riga di comando.
curl -X PUT "https://api.aspose.cloud/v3.0/pdf/ocrscan.pdf/ocr?lang=eng" \
-H "accept: application/json" \
-H "authorization: Bearer <JWT Token>"
Converti PDF scansionati in ricercabili in Java
Per facilitare i nostri programmatori Java, è stato creato un wrapper attorno ad Aspose.PDF Cloud in modo che tutte le funzionalità di Cloud API siano facilmente accessibili nel codice Java. Allo stesso modo, per eseguire l’operazione OCR su PDF scansionati, dobbiamo usare Aspose.PDF Cloud SDK per Java.
Quindi il primo passo è installare SKD sul sistema. Cloud SDK è disponibile per il download su Maven e GitHub. Ora aggiungi i seguenti dettagli nel tuo file pom.xml per scaricare e utilizzare Aspose.Pdf.jar nel tuo progetto di build Maven.
<repositories>
<repository>
<id>aspose-cloud</id>
<name>artifact.aspose-cloud-releases</name>
<url>https://artifact.aspose.cloud/repo</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf-cloud</artifactId>
<version>21.1.0</version>
<scope>compile</scope>
</dependency>
</dependencies>
Per ulteriori informazioni, visitare Come installare gli SDK di Aspose.Cloud.
I passaggi seguenti definiscono il processo di operazione COR sul file immagine PDF.
- Il primo passo è creare un oggetto PdfApi passando i dettagli ClientID e Client secret (disponibili nella dashboard di Aspose.Cloud).
- Crea un’istanza File e passa la posizione del file immagine come argomento.
- Chiama il metodo uploadFile(…) e passa il documento PDF e l’istanza del file come argomenti.
- Il passo successivo consiste nel creare un’istanza di stringa e impostare il suo valore sul codice della lingua contenuto nel file sorgente, ad esempio “rus,eng”.
- Infine, chiama il metodo putSearchableDocument(…) di PdfApi e passa il nome del file PDF di input e il codice della lingua come argomenti.
lingue per il motore OCR. Valori supportati: eng, ara, bel, ben, bul, ces, dan, deu, ell, fin, fra, heb, hin, ind, isl, ita, jpn, kor, nld, nor, pol, por, ron, rus, spa, swe, tha, tur, ukr, vie, chisim, chitra o la loro combinazione, ad esempio eng,rus.
// Ottieni ClientID e ClientSecret da https://dashboard.aspose.cloud/
String clientId = "a41d01ef-dfd5-4e02-ad29-bd85fe41e3e4";
String clientSecret = "d87269aade6a46cdc295b711e26809af";
// crea istanzaPdfApi
PdfApi pdfApi = new PdfApi(clientSecret,clientId);
// documento PDF di input
String name = "ocrscan.pdf";
// Carica il file dal sistema locale
File file = new File("/Users/nayyershahbaz/Downloads/" + name);
// caricare il file sullo storage cloud
FilesUploadResult uploadResponse = pdfApi.uploadFile(name, file, null);
// le lingue utilizzate nel file immagine
String lang = "rus,eng";
// eseguire l'OCR sul documento PDF immagine
AsposeResponse response = pdfApi.putSearchableDocument(name, null, null, lang);
assertEquals(200, (int)response.getCode());

Immagine 1:- Anteprima dell’output OCR.
I file PDF di esempio utilizzati nell’esempio sopra riportato possono essere scaricati dai seguenti link:
Conclusione
In questo articolo, abbiamo appreso alcuni semplici passaggi su come eseguire l’operazione OCR PDF online e convertire il documento PDF scansionato in un documento PDF ricercabile. Oltre alle operazioni OCR, l’SDK è piuttosto potente e può eseguire una varietà di altre operazioni. Per maggiori dettagli, visita Aspose.PDF Cloud Features.