PDF OCR

A PDF fájlokat széles körben használják az interneten információk és adatmegosztás céljából. Nagyon népszerűek, mert bármilyen platformon megtekintik a dokumentumok hűségét. A forrás felett azonban nincs befolyásunk, és egyes fájlok szkennelt formátumban vannak megosztva. Néha PDF-ként rögzít egy képet, és később ki kell bontania a tartalmat a fájlból. Tehát egy életképes megoldás az OCR művelet végrehajtása és a szöveg kibontása. Ha azonban az OCR művelet után meg kell őrizni a fájlt, akkor a PDF formátumba konvertálás egy életképes megoldás. Ebben a cikkben megvitatjuk azokat a lépéseket, amelyek segítségével a beolvasott PDF-et szöveges PDF-formátumba konvertálhatja Python használatával.

OCR PDF API

Az Aspose.PDF Cloud SDK for Python az Aspose.PDF Cloud köré épülő csomag. Lehetővé teszi az összes PDF-fájl-feldolgozási funkció végrehajtását a Python alkalmazáson belül. PDF-fájlok kezelése Adobe Acrobat vagy bármely más alkalmazás nélkül. Tehát az SDK használatához az első lépés a telepítés, és letölthető PIP és GitHub tárolón keresztül. Most hajtsa végre a következő parancsot a terminálban/parancssorban, hogy telepítse az SDK legújabb verzióját a rendszerre.

 pip install asposepdfcloud

MS Visual Studio

A referenciát közvetlenül is hozzáadhatja Python-projektjéhez a Visual Studio projekten belül. Kérjük, keressen az asposepdfcloud csomagban a Python környezet ablaka alatt. Kérjük, kövesse az alábbi képen látható lépéseket a telepítési folyamat befejezéséhez.

Aspose.PDF Cloud Python

  1. kép: - Aspose.PDF Cloud SDK Python csomaghoz.

Aspose.Cloud Dashboard

Mivel API-jainkat csak felhatalmazott személyek érhetik el, a következő lépés egy fiók létrehozása az Aspose.Cloud dashboard oldalon. Ha rendelkezik GitHub- vagy Google-fiókkal, egyszerűen regisztráljon, vagy kattintson az Új fiók létrehozása gombra, és adja meg a szükséges információkat. Most jelentkezzen be az irányítópultra a hitelesítési adatokkal, és bontsa ki az Alkalmazások részt az irányítópulton, majd görgessen lefelé az Ügyfél hitelesítő adatai szakasz felé, hogy megtekinthesse az ügyfél-azonosítót és az ügyféltitkot.

Ügyfél hitelesítő adatai

  1. kép: - Ügyfél hitelesítő adatai az Aspose.Cloud irányítópulton.

Kép PDF-ből kereshető PDF-be Pythonban

Kérjük, kövesse az alábbi lépéseket az OCR művelet végrehajtásához egy beolvasott PDF dokumentumon, majd mentse el kereshetőként (tegye kereshetővé a pdf-et). Ezek a lépések segítenek nekünk ingyenes online OCR fejlesztésében Python használatával.

  • Először létre kell hoznunk egy ApiClient osztály példányát, miközben argumentumként a Client ID Client Secretet adjuk meg.
  • Másodszor, hozzon létre egy példányt a PdfApi osztályból, amely az ApiClient objektumot veszi be bemeneti argumentumként
  • Most hívja meg a PdfApi osztály putsearchabledocument(..) metódusát, amely a bevitt PDF nevet és egy opcionális paramétert, amely az OCR motor nyelvét jelzi.
def ocrPDF():
    try:
        #Client credentials
        client_secret = "406b404b2df649611e508bbcfcd2a77f"
        client_id = "88d1cda8-b12c-4a80-b1ad-c85ac483c5c5"

        #initialize PdfApi client instance using client credetials
        pdf_api_client = asposepdfcloud.api_client.ApiClient(client_secret, client_id)

        # hozzon létre PdfApi példányt, miközben a PdfApiClient argumentumként adja át
        pdf_api = PdfApi(pdf_api_client)

        #input PDF file name
        input_file = 'image-based-pdf-sample.pdf'

        # hívja meg az API-t az OCR művelet végrehajtásához, és mentse a kimenetet a felhőalapú tárolóba
        response = pdf_api.put_searchable_document(name=input_file,lang='eng')

        # üzenet nyomtatása a konzolon (opcionális)
        print('Image PDF successfully converted to Text PDF !')    
    except ApiException as e:
        print("Exception while calling PdfApi: {0}".format(e))
        print("Code:" + str(e.code))
        print("Message:" + e.message)
PDF OCR előnézet

  1. kép: – A PDF OCR művelet előnézete.

A fenti képen a bal oldali rész a bevitt beolvasott PDF-fájlt jelöli, a jobb oldali rész pedig a kapott szövegalapú PDF előnézetét mutatja. A fenti példában használt mintafájlok letölthetők az image-based-pdf-sample.pdf és az OCR-Result.pdf oldalról.

OCR online a cURL parancsokkal

A REST API-k cURL parancsokkal is elérhetők, és mivel felhő API-jaink REST architektúrán alapulnak, így a cURL parancsot is használhatjuk a PDF OCR online végrehajtására. Mielőtt azonban folytatnánk az átalakítási műveletet, létre kell hoznunk egy JSON Web Tokent (JWT) az Aspose.Cloud irányítópulton megadott egyéni kliens hitelesítő adatai alapján. Kötelező, mert API-jaink csak regisztrált felhasználók számára érhetők el. Kérjük, hajtsa végre a következő parancsot a JWT token generálásához.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=88d1cda8-b12c-4a80-b1ad-c85ac483c5c5&client_secret=406b404b2df649611e508bbcfcd2a77f" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Ha megvan a JWT token, kérjük, hajtsa végre a következő parancsot az OCR művelet végrehajtásához, és a kimenetet ugyanabba a felhőtárolóba mentse.

curl -v -X PUT "https://api.aspose.cloud/v3.0/pdf/image-based-pdf-sample.pdf/ocr" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>"

Következtetés

Ebben a cikkben megvitattuk azokat a lépéseket, amelyek segítségével Python kódrészletet használva a PDF-ből kereshető PDF-fájlt készíthet. Megvizsgáltuk az OCR Online végrehajtásának részleteit is a cURL parancsok használatával. Mivel felhő SDK-jainkat MIT-licenc alatt fejlesztjük, letöltheti a teljes kódrészletet a GitHub oldalról, és az igényei szerint frissítheti. Erősen javasoljuk, hogy tekintse át a Fejlesztői útmutatót, hogy többet megtudjon a Cloud API által jelenleg kínált egyéb izgalmas funkciókról.

Ha bármilyen kapcsolódó kérdése van, vagy problémákba ütközik API-ink használata során, kérjük, forduljon hozzánk bizalommal az ingyenes ügyfélszolgálati fórumon.

kapcsolódó cikkek

Azt is javasoljuk, hogy olvassa el a következő cikkeket, hogy többet megtudjon a témáról