PDF imagine în PDF căutabil

Convertiți imaginea PDF în PDF care poate fi căutat

În lumea actuală bazată pe date, PDF au devenit un format indispensabil pentru stocarea și partajarea documentelor. Cu toate acestea, nu toate PDF-urile pot fi căutate sau editate cu ușurință, în special cele care se bazează pe imagini. Când aveți de-a face cu documente, este foarte dificil să copiați/extrageți orice informație textuală pentru o manipulare ulterioară. Din fericire, cu puterea tehnologiei de recunoaștere optică a caracterelor (OCR), puteți converti cu ușurință fișierele PDF cu imagini în fișiere PDF care pot fi căutate. În acest blog tehnic, vom explora cum să convertim PDF OCR în PDF care poate fi căutat folosind diverse tehnici, cu un accent special pe API-ul REST. Vom discuta, de asemenea, despre cum să extrageți text din PDF-uri OCR, oferindu-vă o înțelegere cuprinzătoare a modului în care să utilizați tehnologia OCR pentru a debloca întregul potențial al documentelor PDF.

OCR PDF folosind Java SDK

Aspose.PDF Cloud SDK pentru Java este un API puternic bazat pe cloud, care oferă o gamă largă de caracteristici și capabilități pentru lucrul cu documente PDF. Una dintre funcționalitățile sale cheie este capacitatea de a efectua OCR pe PDF-uri, ceea ce poate simplifica foarte mult procesul de extragere a textului din PDF-uri bazate pe imagini și de a crea PDF-uri care pot fi căutate. Cu interfața sa ușor de utilizat și documentația cuprinzătoare, acest SDK facilitează automatizarea procesului de realizare a OCR pe fișiere PDF, economisind timp și sporind productivitatea.

În plus, acest API bazat pe cloud este conceput pentru a gestiona o mare varietate de formate de intrare și poate recunoaște chiar și textul scris de mână, ceea ce îl face o alegere excelentă pentru companii și dezvoltatori care doresc să își simplifice fluxul de lucru pentru documente. Acum, primul pas este să adăugați referința sa în proiectul Java adăugând următoarele detalii în pom.xml ale proiectului de construcție Maven.

<repositories> 
    <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>http://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-pdf-cloud</artifactId>
        <version>21.11.0</version>
    </dependency>
</dependencies>

Dacă nu aveți un cont existent, trebuie să vă creați un cont gratuit prin Aspose Cloud. Conectați-vă folosind contul nou creat și căutați/creați ID-ul clientului și Secretul clientului la Cloud Dashboard. Aceste detalii sunt necesare în secțiunile următoare.

PDF scanat în PDF căutabil folosind Java

Această secțiune explică detaliile despre cum să convertiți PDF scanat în PDF căutabil folosind fragment de cod Java. Rețineți că Java Cloud SDK acceptă recunoașterea următoarelor limbi: eng, ara, bel, ben, bul, ces, dan, deu, ell, fin, fra, heb, hin, ind, isl, ita, jpn, kor, nld , nor, pol, por, ron, rus, spa, swe, tha, tur, ukr, vie, chisim, chitra sau combinația lor de exemplu eng,rus.

  • Mai întâi trebuie să creăm un obiect al PdfApi, unde trecem ClientID și detaliile secrete ale clientului ca argumente
  • În al doilea rând, creați o instanță a clasei File pentru a încărca imaginea PDF
  • În al treilea rând, apelați metoda uploadFile(…) pentru a încărca PDF-ul de intrare în stocarea în cloud
  • Deoarece imaginea noastră PDF conține text în limba engleză, trebuie să creăm un obiect șir care să conțină o valoare „eng”
  • În cele din urmă, apelați metoda putSearchableDocument(…), care necesită un PDF de intrare și un cod de limbă ca argumente.

Odată ce codul este executat cu succes, PDF-ul care poate fi căutat este stocat în stocarea în cloud

try
    {
    // Obțineți ClientID și ClientSecret de pe https://dashboard.aspose.cloud/
    String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
    String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
	  
    // createPdfApi instanță
    PdfApi pdfApi = new PdfApi(clientSecret,clientId);
	    				
    // imagine de intrare document PDF
    String name = "ScannedPDF.pdf";	        
	    			    
    // Încărcați fișierul din sistemul local
    File file = new File(name);
    // încărcați fișierul în stocarea în cloud
    FilesUploadResult uploadResponse = pdfApi.uploadFile(name, file, null);
	    				
    // limbile folosite în imaginea PDF
    String lang = "eng";
	    				
    //  efectuați OCR pe documentul PDF imagine
    AsposeResponse response = pdfApi.putSearchableDocument(name, null, null, lang);
	    
    // tipăriți mesajul de succes
    System.out.println("OCR PDF successfull !");
    }catch(Exception ex)
    {
        System.out.println(ex.getMessage());
    }
PDF imagine în PDF căutabil

Imagine1: - Previzualizare PDF care poate fi căutată

PDF-ul scanat folosit în exemplul de mai sus poate fi descărcat de pe BusinessReport.pdf, iar PDF-ul care poate fi căutat rezultat din Converted.pdf

OCR online folosind comenzile cURL

Comenzile cURL sunt una dintre abordările convenabile de a apela API-urile REST. Deci, în această secțiune, vom folosi comenzile cURL pentru OCR online. Acum, ca o condiție prealabilă, trebuie să generăm mai întâi un token de acces JWT (pe baza acreditărilor clientului) în timp ce executăm următoarea comandă.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Odată ce avem simbolul JWT, vă rugăm să urmați următoarea comandă pentru a efectua OCR online și a converti imaginea PDF într-un document PDF care poate fi căutat. Fișierul rezultat este apoi stocat în stocarea în cloud.

curl -v -X GET "https://api.aspose.cloud/v4.0/words/Resultant.docx?format=TIFF&outPath=converted.tiff" \
-H  "accept: application/octet-stream" \
-H  "Authorization: Bearer <JWT Token>"

Concluzie

Efectuarea OCR pe PDF-uri este un proces critic pentru deblocarea întregului potențial al acestor documente. Cu ajutorul instrumentelor OCR bazate pe cloud, cum ar fi Aspose.PDF Cloud SDK pentru Java, acest proces poate fi simplificat și automatizat, economisind timp și crescând productivitatea. Prin valorificarea puterii OCR, companiile și dezvoltatorii pot transforma PDF-urile bazate pe imagini în PDF-uri care pot fi căutate, făcându-le mai ușor de căutat, editat și partajat. Este clar că acest API oferă o serie de caracteristici și capabilități puternice pentru lucrul cu PDF-uri. Urmând ghidurile pas cu pas furnizate în acest blog tehnic, puteți începe cu OCR pe PDF-uri și puteți duce fluxul de lucru pentru documente la nivelul următor.

Puteți lua în considerare accesarea API-ului într-un browser web utilizând interfața swagger. În plus, deoarece SDK-urile noastre sunt construite sub o licență MIT, codul sursă complet poate fi descărcat de pe GitHub. În cazul în care întâmpinați probleme în timpul utilizării API-ului, vă rugăm să nu ezitați să ne contactați prin forumul de asistență pentru produse gratuit.

Articole similare

Vă recomandăm să accesați următoarele link-uri pentru a afla mai multe despre: