Vaizdas iš PDF į ieškomą PDF

Konvertuoti vaizdo PDF į ieškomą PDF

Šiuolaikiniame duomenimis pagrįstame pasaulyje PDF tapo nepakeičiamu formatu dokumentams saugoti ir dalytis jais. Tačiau ne visų PDF failų galima lengvai ieškoti ar juos redaguoti, ypač tuos, kurie yra pagrįsti vaizdais. Dirbant su dokumentais tikrai sunku nukopijuoti/ištraukti bet kokią tekstinę informaciją tolimesniam manipuliavimui. Laimei, naudodamiesi optinio simbolių atpažinimo (OCR) technologija, galite lengvai konvertuoti vaizdų PDF į ieškomus PDF failus. Šiame techniniame tinklaraštyje išnagrinėsime, kaip konvertuoti OCR PDF į PDF, kuriame galima ieškoti, naudojant įvairius metodus, ypatingą dėmesį skiriant REST API. Taip pat aptarsime, kaip išgauti tekstą iš OCR PDF, kad galėtumėte visapusiškai suprasti, kaip panaudoti OCR technologiją, kad išnaudotumėte visas PDF dokumentų galimybes.

OCR PDF naudojant Java SDK

Aspose.PDF Cloud SDK, skirta Java yra galinga debesies pagrindu sukurta API, siūlanti daugybę funkcijų ir galimybių darbui su PDF dokumentais. Viena iš pagrindinių jo funkcijų yra galimybė atlikti OCR PDF rinkmenose, o tai gali labai supaprastinti teksto ištraukimo iš paveikslėlių PDF failų ir PDF failų, kuriuose galima ieškoti, kūrimo procesą. Dėl patogios vartotojo sąsajos ir išsamios dokumentacijos šis SDK leidžia lengvai automatizuoti OCR vykdymą PDF failuose, taip sutaupant laiko ir padidinant produktyvumą.

Be to, ši debesies pagrindu sukurta API skirta tvarkyti įvairius įvesties formatus ir netgi atpažinti ranka rašytą tekstą, todėl tai puikus pasirinkimas įmonėms ir kūrėjams, norintiems supaprastinti savo dokumentų darbo eigą. Dabar pirmas žingsnis yra įtraukti jo nuorodą į „Java“ projektą, pridedant toliau pateiktą informaciją „maven build“ projekto pom.xml.

<repositories> 
    <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>https://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-pdf-cloud</artifactId>
        <version>21.11.0</version>
    </dependency>
</dependencies>

Jei neturite paskyros, turite sukurti nemokamą paskyrą per Aspose Cloud. Prisijunkite naudodami naujai sukurtą paskyrą ir Cloud Dashboard ieškokite / sukurkite kliento ID ir kliento paslaptį. Šią informaciją reikia pateikti tolesniuose skyriuose.

Nuskaitytas PDF į ieškomą PDF naudojant Java

Šiame skyriuje paaiškinama išsami informacija, kaip konvertuoti nuskaitytą PDF į ieškomą PDF naudojant Java kodo fragmentą. Atminkite, kad „Java Cloud SDK“ palaiko šių kalbų atpažinimą: eng, ara, bel, ben, bul, ces, dan, deu, ell, fin, fra, heb, hin, ind, isl, ita, jpn, kor, nld , nei, pol, por, ron, rus, spa, swe, tha, tur, ukr, vie, chisim, chitra arba jų derinys pvz eng,rus.

  • Pirmiausia turime sukurti PdfApi objektą, kuriame kaip argumentus perduodame ClientID ir Client secret detales
  • Antra, sukurkite failų klasės egzempliorių, kad įkeltumėte vaizdo PDF
  • Trečia, iškvieskite metodą uploadFile (…), kad įkeltumėte įvesties PDF į debesies saugyklą
  • Kadangi mūsų paveikslėlyje PDF yra angliškas tekstas, turime sukurti eilutės objektą, turintį reikšmę „eng“
  • Galiausiai iškvieskite metodą putSearchableDocument (…), kuriam kaip argumentus reikia įvesties PDF ir kalbos kodo.

Kai kodas sėkmingai vykdomas, PDF, kuriame galima ieškoti, saugomas debesies saugykloje

try
    {
    // Gaukite ClientID ir ClientSecret iš https://dashboard.aspose.cloud/
    String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
    String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
	  
    // sukurti PdfApi egzempliorių
    PdfApi pdfApi = new PdfApi(clientSecret,clientId);
	    				
    // įvesti vaizdą PDF dokumentą
    String name = "ScannedPDF.pdf";	        
	    			    
    // Įkelkite failą iš vietinės sistemos
    File file = new File(name);
    // įkelkite failą į debesies saugyklą
    FilesUploadResult uploadResponse = pdfApi.uploadFile(name, file, null);
	    				
    // vaizdų PDF kalbomis
    String lang = "eng";
	    				
    //  atlikti OCR ant vaizdo PDF dokumento
    AsposeResponse response = pdfApi.putSearchableDocument(name, null, null, lang);
	    
    // atsispausdinti sėkmės pranešimą
    System.out.println("OCR PDF successfull !");
    }catch(Exception ex)
    {
        System.out.println(ex.getMessage());
    }
Vaizdas iš PDF į ieškomą PDF

1 vaizdas: – PDF peržiūra, kurioje galima ieškoti

Aukščiau pateiktame pavyzdyje naudotą nuskaitytą PDF failą galima atsisiųsti iš BusinessReport.pdf, o gautą PDF, kuriame galima ieškoti, iš Converted.pdf

OCR internete naudojant cURL komandas

CURL komandos yra vienas iš patogių būdų iškviesti REST API. Taigi šiame skyriuje mes naudosime cURL komandas OCR internete. Dabar, kaip būtina sąlyga, pirmiausia turime sugeneruoti JWT prieigos raktą (pagal kliento kredencialus), vykdydami šią komandą.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Kai turėsime JWT prieigos raktą, atlikite šią komandą, kad atliktumėte OCR internete ir konvertuotumėte vaizdo PDF į ieškomą PDF dokumentą. Tada gautas failas saugomas debesies saugykloje.

curl -v -X GET "https://api.aspose.cloud/v4.0/words/Resultant.docx?format=TIFF&outPath=converted.tiff" \
-H  "accept: application/octet-stream" \
-H  "Authorization: Bearer <JWT Token>"

Išvada

OCR vykdymas PDF rinkmenose yra labai svarbus procesas norint išnaudoti visas šių dokumentų galimybes. Naudojant debesies pagrindu veikiančius OCR įrankius, tokius kaip „Aspose.PDF Cloud SDK“, skirtą „Java“, šį procesą galima supaprastinti ir automatizuoti, taupant laiką ir padidinant produktyvumą. Išnaudodamos OCR galią, įmonės ir kūrėjai gali paversti vaizdais pagrįstus PDF failus, kuriuose galima ieškoti, todėl juos lengviau ieškoti, redaguoti ir bendrinti. Akivaizdu, kad ši API siūlo daugybę galingų funkcijų ir galimybių darbui su PDF failais. Vykdydami nuoseklius vadovus, pateiktus šiame techniniame tinklaraštyje, galite pradėti naudoti OCR PDF rinkmenose ir perkelti dokumentų darbo eigą į kitą lygį.

Galite apsvarstyti galimybę pasiekti API žiniatinklio naršyklėje, naudodami swagger sąsają. Be to, kadangi mūsų SDK sukurti pagal MIT licenciją, visą šaltinio kodą galima atsisiųsti iš GitHub. Jei naudojant API iškyla kokių nors problemų, susisiekite su mumis per nemokamą produkto palaikymo forumą.

susiję straipsniai

Primygtinai rekomenduojame apsilankyti šiose nuorodose, kad sužinotumėte daugiau apie: