pdf-ből szöveggé

Hogyan lehet PDF-et szöveggé konvertálni Pythonban

A mai digitális világ rengeteg információval rendelkezik, és a PDF-dokumentumokból szövegek kinyerésének képessége nemcsak kényelem, hanem szükséglet is. Képzelje el, hogy egy hosszadalmas PDF fájlt kutat át, és keresi azt a kritikus információt, amelyet a kutatása során hivatkozhat, vagy esetleg dokumentumok tárházát kezeli, és adatokat szeretne kinyerni elemzés céljából. Ezekben és még sok más forgatókönyvben a PDF-tartalom egyszerű szöveggé alakításának képessége játékmódot jelent. Ez a cikk a Python Cloud SDK használatával a PDF-ekből származó szövegek kinyerésének mélyreható célját és tagadhatatlan előnyeit vizsgálja. Ez az átalakulás felhatalmazza az egyéneket és a szervezeteket a digitális tartalom hatékony kezelésére, elemzésére és felhasználására egy olyan világban, ahol az információ rendkívül fontos.

PDF-ből szöveggé konvertáló REST API

Az Aspose.PDF Cloud SDK for Python segítségével a PDF-dokumentumokból zökkenőmentesen és hatékonyan lehet szöveget kivonni. Ez a sokoldalú SDK lehetővé teszi, hogy könnyedén konvertálja a PDF tartalmat egyszerű szöveggé, felszabadítva a digitális dokumentumokban tárolt információkat.

A Cloud SDK ingyenesen letölthető PIP és GitHub tárhelyen keresztül. Most hajtsa végre a következő parancsot a terminálban/parancssorban az SDK legújabb verziójának telepítéséhez:

 pip install asposepdfcloud

Ha PyCharm IDE-t használ, közvetlenül hozzáadhatja az SDK-t függőségként a projekthez.

Fájl ->Beállítások ->Projekt ->Python Interpreter ->asposepdfcloud

A telepítés után a következő nagy lépés egy ingyenes előfizetés felhőszolgáltatásainkra az Aspose.Cloud dashboard oldalon. Ha rendelkezik GitHub- vagy Google-fiókkal, egyszerűen regisztráljon, vagy kattintson az Új fiók létrehozása gombra. Most jelentkezzen be az irányítópultra, és szerezze be személyre szabott ügyfél-azonosítóját és ügyféltitkai adatait.

Szöveg kibontása a PDF-ből Pythonban

Kérjük, kövesse az alábbi utasításokat a szöveg kibontásához PDF-dokumentumokból Python SDK használatával.

  • Először is hozzon létre egy példányt az ApiClient osztályból, miközben argumentumként adja meg a Client ID Client Secretet.
  • Másodszor, hozzon létre egy példányt a PdfApi osztályból, amely az ApiClient objektumot használja bemeneti argumentumként.
  • Most hívja meg a gettext(…) metódust, miközben megadja az LLX, LLY, URX és URY koordinátákat.
def extractText():
    try:
        #Client credentials
        client_secret = "1c9379bb7d701c26cc87e741a29987bb"
        client_id = "bbf94a2c-6d7e-4020-b4d2-b9809741374e"

        #initialize PdfApi client instance using client credetials
        pdf_api_client = asposepdfcloud.api_client.ApiClient(client_secret, client_id)

        # hozzon létre PdfApi példányt, miközben a PdfApiClient argumentumként adja át
        pdf_api = PdfApi(pdf_api_client)

        #source image file
        input_file = 'awesomeTable.pdf'
        
        # Hívja meg a szöveg kibontásának módszerét
        response = pdf_api.get_text(name = input_file, llx=0,lly=0, urx=800, ury =800)
        print(response)
        
        # üzenet nyomtatása a konzolon (opcionális)
        print('Text Extracted successfully from PDF !')    
    except ApiException as e:
        print("Exception while calling PdfApi: {0}".format(e))
        print("Code:" + str(e.code))
        print("Message:" + e.message)
PDF-ből szöveggé konvertálás előnézete

  1. kép: – PDF-ből szöveges előnézet.

Abban az esetben, ha a szöveget a dokumentum egy adott oldaláról kell kivonnia, próbálja meg a GetPageText API-t használni, amely argumentumként használja az oldalszámot.

PDF konvertálása szöveggé a cURL paranccsal

Tapasztalja meg a PDF-tartalom zökkenőmentes átalakítását egyszerű szöveggé az Aspose.PDF Cloud és a cURL parancsok hatékony kombinációjával. Ez a dinamikus integráció nemcsak leegyszerűsíti a PDF-ből szöveggé konvertálást, hanem számos olyan előnnyel is rendelkezik, amelyek javítják a dokumentumkezelési és szövegkivonási élményt.

Kérjük, vegye figyelembe, hogy ennek a megközelítésnek az előfeltétele egy JSON Web Token (JWT) létrehozása az ügyfél hitelesítő adatai alapján. Ez a lépés kötelező, mivel API-jaink csak regisztrált felhasználók számára érhetők el. Kérjük, hajtsa végre a következő parancsot a JWT token generálásához.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bbf94a2c-6d7e-4020-b4d2-b9809741374e&client_secret=1c9379bb7d701c26cc87e741a29987bb" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Miután megvan a JWT token, a következő paranccsal konvertálhatjuk a PDF-et szöveggé az összes szöveges tartalom kibontásával. A kimenet egyszerű szöveges fájlként kerül mentésre a helyi meghajtóra.

curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/awesomeTable.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>" \
-o Extracted.txt

A fenti példában használt minta letölthető a awesomeTable.pdf webhelyről.

Következtetés

A szövegek PDF-dokumentumokból való kinyerése kritikus követelmény a digitális információkkal teli világban. Ennek a folyamatnak a feltárása során két dinamikus útvonalat vizsgáltunk meg: az egyiket a Pythonhoz készült sokoldalú Aspose.PDF Cloud SDK-n, a másikat pedig az Aspose.PDF Cloud és a cURL parancsok hatékony kombinációján keresztül.

Mindkét megközelítés áthidalja a szakadékot a statikus PDF-tartalom és a dinamikus szöveg között, javítva a digitális információk kezelésének, elemzésének és felhasználásának módját. Akár az SDK kifinomultságát, akár a cURL-parancsok egyszerűségét választja, mindkét út hatékony PDF-ből szöveggé konverziót eredményez, lehetővé téve a PDF-dokumentumokban rejtett rengeteg szöveges adat feloldását.

Kapcsolódó cikkek

Javasoljuk továbbá, hogy látogassa meg az alábbi linkeket, ha többet szeretne megtudni erről: