
A képek az adatmegosztás egyik szerves részét képezik, és egyes alkalmazások közvetlenül PDF formátumban jelenítik meg a forrástartalmat. Ez a kényelem azonban megnöveli a költségeket, ha bizonyos tartalmakat kell keresnünk a dokumentumon belül. Ebben a forgatókönyvben manuálisan kell végigmenni az egész dokumentumon, hogy megtalálja a releváns információkat. Ezért az ajánlott megközelítés mindig az, hogy kereshető és könnyen kezelhető fájlokat generáljon. Ha azonban olyan PDF fájlokat kapott, ahol nem tudja a forrásnál szabályozni a dokumentumok formátumát, ezért az adatok archiválásához és indexeléséhez az ilyen dokumentumokat kereshető formátumra kell konvertálnunk. Ebben a cikkben megvitatjuk az online PDF OCR végrehajtásának és a beolvasott / kép PDF fájlok kereshető / szöveges PDF dokumentumokká konvertálásának részleteit.
PDF feldolgozó API
Az Aspose.PDF Cloud a díjnyertes REST architektúrán alapuló PDF-létrehozó és -manipulációs API. Ugyanazon API-val számos műveletet hajthat végre, például EPUB konvertálása PDF-be, HTML konvertálása PDF-be, XPS konvertálása PDF-be, DOC és Doc X konvertálása PDF-be, XPS konvertálása PDF-be, képek új vagy meglévő PDF-fájlokba szúrhatók be, stb. Mindezek a műveletek a felhőből elérhetők, így az API-t bármilyen platformon elérheti.
PDF OCR a cURL paranccsal
A cURL parancsok egyszerű módot kínálnak az Aspose.PDF Cloud elérésére a parancssori terminálon keresztül. Mielőtt azonban hozzáférne az API-khoz, először fel kell keresnie az Aspose.Cloud dashboard webhelyet, és ha rendelkezik GitHub- vagy Google-fiókkal, egyszerűen regisztráljon. Ellenkező esetben kattintson az Új fiók létrehozása gombra, és adja meg a szükséges információkat. Most jelentkezzen be az irányítópultra a hitelesítési adatokkal, és bontsa ki az Alkalmazások részt az irányítópulton, és görgessen lefelé az Ügyfél hitelesítő adatai szakasz felé, hogy megtekinthesse az ügyfél-azonosítót és az ügyféltitkot.
A következő lépés a JSON Web Token (JWT) létrehozása, hogy az API-k elérhetőek legyenek a parancssoron keresztül.
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=a41d01ef-dfd5-4e02-ad29-bd85fe41e3e4&client_secret=d87269aade6a46cdc295b711e26809af" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
Miután megvan a JWT token, hajtsa végre a következő cURL parancsot a parancssori terminálban.
curl -X PUT "https://api.aspose.cloud/v3.0/pdf/ocrscan.pdf/ocr?lang=eng" \
-H "accept: application/json" \
-H "authorization: Bearer <JWT Token>"
A beolvasott PDF konvertálása Java nyelven kereshetővé
Java programozóink megkönnyítése érdekében létrehoztuk az Aspose.PDF Cloud körüli burkolólapot, hogy a Cloud API minden funkciója könnyen elérhető legyen Java kódban. Hasonlóképpen, az OCR művelet végrehajtásához a beolvasott PDF-en, az [Aspose.PDF Cloud SDK for Java] alkalmazást kell használnunk 9.
Tehát az első lépés az SKD telepítése a rendszerre. A Cloud SDK letölthető a Maven és a GitHub segítségével. Most adja hozzá a következő adatokat a pom.xml fájlhoz az Aspose.Pdf.jar letöltéséhez és a Maven build projektben való használatához.
<repositories>
<repository>
<id>aspose-cloud</id>
<name>artifact.aspose-cloud-releases</name>
<url>https://artifact.aspose.cloud/repo</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf-cloud</artifactId>
<version>21.1.0</version>
<scope>compile</scope>
</dependency>
</dependencies>
További információért látogasson el az Aspose.Cloud SDK-k telepítése oldalra.
Az alábbi lépések határozzák meg a COR művelet folyamatát a kép PDF fájlon.
- Az első lépés egy PdfApi objektum létrehozása, miközben átadja a ClientID és a Client titkos adatait (elérhető az Aspose.Cloud dashboard oldalon).
- Hozzon létre egy fájlpéldányt, és adja át a képfájl helyét argumentumként.
- Hívja meg a uploadFile(…) metódust, és adja át a PDF dokumentumot és a fájlpéldányt argumentumként.
- Következő lépésként hozzon létre egy karakterlánc-példányt, és állítsa be az értékét arra a nyelvi kódra, amelyet a forrásfájl tartalmaz, azaz “rus,eng”.
- Végül hívja meg a PdfApi putSearchableDocument(…) metódusát, és adja meg a bemeneti PDF-fájl nevét és a nyelvi kódot argumentumként.
nyelvek az OCR motorhoz. támogatott értékek: eng, ara, bel, ben, bul, ces, dan, deu, ell, fin, fra, heb, hin, ind, isl, ita, jpn, kor, nld, nor, pol, por, ron, rus, spa, swe, tha, tur, ukr, vie, chisim, chitra eng vagy ezek kombinációja.
// Szerezze be a ClientID-t és a ClientSecret-et a https://dashboard.aspose.cloud/ webhelyről
String clientId = "a41d01ef-dfd5-4e02-ad29-bd85fe41e3e4";
String clientSecret = "d87269aade6a46cdc295b711e26809af";
// createPdfApi példány
PdfApi pdfApi = new PdfApi(clientSecret,clientId);
// PDF dokumentum bevitele
String name = "ocrscan.pdf";
// Töltse be a fájlt a helyi rendszerről
File file = new File("/Users/nayyershahbaz/Downloads/" + name);
// töltse fel a fájlt a felhőtárhelyre
FilesUploadResult uploadResponse = pdfApi.uploadFile(name, file, null);
// a képfájlban használt nyelvek
String lang = "rus,eng";
// hajtsa végre az OCR-t képen PDF dokumentumon
AsposeResponse response = pdfApi.putSearchableDocument(name, null, null, lang);
assertEquals(200, (int)response.getCode());

- kép: – OCR kimenet előnézete.
A fenti példában használt minta PDF fájlok letölthetők a következő hivatkozásokról:
Következtetés
Ebben a cikkben megtanultunk néhány egyszerű lépést az online PDF OCR művelet végrehajtásához és a beolvasott PDF-dokumentum kereshető PDF-dokumentummá konvertálásához. Az OCR-műveleteken kívül az SDK meglehetősen erős, és számos egyéb műveletet is képes végrehajtani. További részletekért keresse fel az Aspose.PDF Cloud Features webhelyet.