A beszkennelt PDF kereshető

A képek az adatmegosztás egyik szerves részét képezik, és egyes alkalmazások közvetlenül PDF formátumban jelenítik meg a forrástartalmat. Ez a kényelem azonban megnöveli a költségeket, ha bizonyos tartalmakat kell keresnünk a dokumentumon belül. Ebben a forgatókönyvben manuálisan kell végigmenni az egész dokumentumon, hogy megtalálja a releváns információkat. Ezért az ajánlott megközelítés mindig az, hogy kereshető és könnyen kezelhető fájlokat generáljon. Ha azonban olyan PDF fájlokat kapott, ahol nem tudja a forrásnál szabályozni a dokumentumok formátumát, ezért az adatok archiválásához és indexeléséhez az ilyen dokumentumokat kereshető formátumra kell konvertálnunk. Ebben a cikkben megvitatjuk az online PDF OCR végrehajtásának és a beolvasott / kép PDF fájlok kereshető / szöveges PDF dokumentumokká konvertálásának részleteit.

PDF feldolgozó API

Az Aspose.PDF Cloud a díjnyertes REST architektúrán alapuló PDF-létrehozó és -manipulációs API. Ugyanazon API-val számos műveletet hajthat végre, például EPUB konvertálása PDF-be, HTML konvertálása PDF-be, XPS konvertálása PDF-be, DOC és Doc X konvertálása PDF-be, XPS konvertálása PDF-be, képek új vagy meglévő PDF-fájlokba szúrhatók be, stb. Mindezek a műveletek a felhőből elérhetők, így az API-t bármilyen platformon elérheti.

PDF OCR a cURL paranccsal

A cURL parancsok egyszerű módot kínálnak az Aspose.PDF Cloud elérésére a parancssori terminálon keresztül. Mielőtt azonban hozzáférne az API-khoz, először fel kell keresnie az Aspose.Cloud dashboard webhelyet, és ha rendelkezik GitHub- vagy Google-fiókkal, egyszerűen regisztráljon. Ellenkező esetben kattintson az Új fiók létrehozása gombra, és adja meg a szükséges információkat. Most jelentkezzen be az irányítópultra a hitelesítési adatokkal, és bontsa ki az Alkalmazások részt az irányítópulton, és görgessen lefelé az Ügyfél hitelesítő adatai szakasz felé, hogy megtekinthesse az ügyfél-azonosítót és az ügyféltitkot.

A következő lépés a JSON Web Token (JWT) létrehozása, hogy az API-k elérhetőek legyenek a parancssoron keresztül.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=a41d01ef-dfd5-4e02-ad29-bd85fe41e3e4&client_secret=d87269aade6a46cdc295b711e26809af" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Miután megvan a JWT token, hajtsa végre a következő cURL parancsot a parancssori terminálban.

curl -X PUT "https://api.aspose.cloud/v3.0/pdf/ocrscan.pdf/ocr?lang=eng" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>"

A beolvasott PDF konvertálása Java nyelven kereshetővé

Java programozóink megkönnyítése érdekében létrehoztuk az Aspose.PDF Cloud körüli burkolólapot, hogy a Cloud API minden funkciója könnyen elérhető legyen Java kódban. Hasonlóképpen, az OCR művelet végrehajtásához a beolvasott PDF-en, az [Aspose.PDF Cloud SDK for Java] alkalmazást kell használnunk 9.

Tehát az első lépés az SKD telepítése a rendszerre. A Cloud SDK letölthető a Maven és a GitHub segítségével. Most adja hozzá a következő adatokat a pom.xml fájlhoz az Aspose.Pdf.jar letöltéséhez és a Maven build projektben való használatához.

<repositories>
 <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>https://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>
<dependencies>
 <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-pdf-cloud</artifactId>
        <version>21.1.0</version>
        <scope>compile</scope>
    </dependency>
 </dependencies>

További információért látogasson el az Aspose.Cloud SDK-k telepítése oldalra.

Az alábbi lépések határozzák meg a COR művelet folyamatát a kép PDF fájlon.

  • Az első lépés egy PdfApi objektum létrehozása, miközben átadja a ClientID és a Client titkos adatait (elérhető az Aspose.Cloud dashboard oldalon).
  • Hozzon létre egy fájlpéldányt, és adja át a képfájl helyét argumentumként.
  • Hívja meg a uploadFile(…) metódust, és adja át a PDF dokumentumot és a fájlpéldányt argumentumként.
  • Következő lépésként hozzon létre egy karakterlánc-példányt, és állítsa be az értékét arra a nyelvi kódra, amelyet a forrásfájl tartalmaz, azaz “rus,eng”.
  • Végül hívja meg a PdfApi putSearchableDocument(…) metódusát, és adja meg a bemeneti PDF-fájl nevét és a nyelvi kódot argumentumként.

nyelvek az OCR motorhoz. támogatott értékek: eng, ara, bel, ben, bul, ces, dan, deu, ell, fin, fra, heb, hin, ind, isl, ita, jpn, kor, nld, nor, pol, por, ron, rus, spa, swe, tha, tur, ukr, vie, chisim, chitra eng vagy ezek kombinációja.

// Szerezze be a ClientID-t és a ClientSecret-et a https://dashboard.aspose.cloud/ webhelyről
String clientId = "a41d01ef-dfd5-4e02-ad29-bd85fe41e3e4";
String clientSecret = "d87269aade6a46cdc295b711e26809af";
				
// createPdfApi példány
PdfApi pdfApi = new PdfApi(clientSecret,clientId);
				
// PDF dokumentum bevitele
String name = "ocrscan.pdf";	        
			    
// Töltse be a fájlt a helyi rendszerről
File file = new File("/Users/nayyershahbaz/Downloads/" + name);
// töltse fel a fájlt a felhőtárhelyre
FilesUploadResult uploadResponse = pdfApi.uploadFile(name, file, null);
				
// a képfájlban használt nyelvek
String lang = "rus,eng";
				
//  hajtsa végre az OCR-t képen PDF dokumentumon
AsposeResponse response = pdfApi.putSearchableDocument(name, null, null, lang);
assertEquals(200, (int)response.getCode());
OCR eredmény előnézete

  1. kép: – OCR kimenet előnézete.

A fenti példában használt minta PDF fájlok letölthetők a következő hivatkozásokról:

Következtetés

Ebben a cikkben megtanultunk néhány egyszerű lépést az online PDF OCR művelet végrehajtásához és a beolvasott PDF-dokumentum kereshető PDF-dokumentummá konvertálásához. Az OCR-műveleteken kívül az SDK meglehetősen erős, és számos egyéb műveletet is képes végrehajtani. További részletekért keresse fel az Aspose.PDF Cloud Features webhelyet.