pdf לטקסט

כיצד להמיר PDF לטקסט ב- Python

בעולם הדיגיטלי של היום יש שפע של מידע והיכולת לחלץ טקסט ממסמכי PDF הפכה לא רק לנוחות אלא להכרח. תאר לעצמך שאתה מסנן קובץ PDF ארוך, מחפש אחר פיסת מידע קריטית לצטט במחקר שלך, או אולי אתה מנהל מאגר של מסמכים, מחפש לחלץ נתונים לצורך ניתוח. בתרחישים אלה ורבים נוספים, היכולת להמיר ללא מאמץ תוכן PDF לטקסט רגיל מתגלה כמשנה משחק. מאמר זה בוחן את המטרה העמוקה ואת היתרונות שאין להכחישה של חילוץ טקסט מקובצי PDF באמצעות Python Cloud SDK. הטרנספורמציה הזו מעצימה אנשים וארגונים לנהל, לנתח ולהשתמש ביעילות בתוכן דיגיטלי בעולם שבו מידע הוא בעל חשיבות עמוקה.

המרת PDF לטקסט REST API

השגת חילוץ טקסט ממסמכי PDF נעשית חלקה ויעילה עם Aspose.PDF Cloud SDK for Python. SDK רב-תכליתי זה מאפשר לך להמיר ללא מאמץ תוכן PDF לטקסט רגיל, תוך פתיחת המידע המאוחסן במסמכים דיגיטליים אלה.

ה-Cloud SDK זמין להורדה בחינם במאגר PIP ו-GitHub. כעת בצע את הפקודה הבאה בשורת המסוף/הפקודה כדי להתקין את הגרסה העדכנית ביותר של SDK:

 pip install asposepdfcloud

אם אתה משתמש ב-PyCharm IDE, אתה יכול להוסיף ישירות את ה-SDK כתלות בפרויקט שלך.

קובץ ->הגדרות ->פרויקט ->מתורגמן Python ->asposepdfcloud

לאחר ההתקנה, השלב הגדול הבא הוא הרשמה חינם לשירותי הענן שלנו באמצעות לוח המחוונים של Aspose.Cloud. אם יש לך חשבון GitHub או Google, פשוט הירשם או לחץ על הלחצן צור חשבון חדש. כעת היכנס ללוח המחוונים וקבל את פרטי הלקוח המותאם אישית שלך ואת פרטי סוד הלקוח.

חלץ טקסט מ-PDF ב-Python

אנא עקוב אחר ההוראות המפורטות להלן כדי לחלץ טקסט ממסמכי PDF באמצעות Python SDK.

  • ראשית, צור מופע של מחלקה ApiClient תוך מתן סוד לקוח לקוח כארגומנטים.
  • שנית, צור מופע של מחלקה PdfApi אשר לוקח את אובייקט ApiClient כארגומנט קלט.
  • כעת קרא למתודה gettext(…) תוך מתן קואורדינטות LLX, LLY, URX ו-URY.
def extractText():
    try:
        #Client credentials
        client_secret = "1c9379bb7d701c26cc87e741a29987bb"
        client_id = "bbf94a2c-6d7e-4020-b4d2-b9809741374e"

        #initialize PdfApi client instance using client credetials
        pdf_api_client = asposepdfcloud.api_client.ApiClient(client_secret, client_id)

        # צור מופע PdfApi תוך העברת PdfApiClient כארגומנט
        pdf_api = PdfApi(pdf_api_client)

        #source image file
        input_file = 'awesomeTable.pdf'
        
        # קרא לשיטה לחילוץ טקסט
        response = pdf_api.get_text(name = input_file, llx=0,lly=0, urx=800, ury =800)
        print(response)
        
        # הדפס הודעה במסוף (אופציונלי)
        print('Text Extracted successfully from PDF !')    
    except ApiException as e:
        print("Exception while calling PdfApi: {0}".format(e))
        print("Code:" + str(e.code))
        print("Message:" + e.message)
תצוגה מקדימה של המרת PDF לטקסט

תמונה 1: - תצוגה מקדימה של PDF לטקסט.

במקרה שאתה צריך לחלץ את הטקסט מעמוד ספציפי של המסמך, נסה להשתמש ב-GetPageText API שלוקח את pageNumber כארגומנט.

המרת PDF לטקסט באמצעות פקודת cURL

חווה את ההפיכה החלקה של תוכן PDF לטקסט רגיל באמצעות השילוב העוצמתי של Aspose.PDF Cloud ופקודות cURL. אינטגרציה דינמית זו לא רק מפשטת את המרת PDF לטקסט אלא גם מציעה מספר יתרונות המשפרים את חוויית ניהול המסמכים וחילוץ הטקסט שלך.

שים לב שדרישה מוקדמת בגישה זו היא ליצור JSON Web Token (JWT) על סמך אישורי הלקוח שלך. שלב זה הוא חובה מכיוון שממשקי ה-API שלנו נגישים רק למשתמשים רשומים. אנא בצע את הפקודה הבאה כדי ליצור את אסימון JWT.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bbf94a2c-6d7e-4020-b4d2-b9809741374e&client_secret=1c9379bb7d701c26cc87e741a29987bb" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

ברגע שיש לנו את אסימון JWT, נוכל להשתמש בפקודה הבאה כדי להמיר PDF לטקסט על ידי חילוץ כל התוכן הטקסטואלי. הפלט נשמר כקובץ טקסט רגיל בכונן המקומי.

curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/awesomeTable.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>" \
-o Extracted.txt

ניתן להוריד את הדוגמה שבה נעשה שימוש בדוגמה לעיל מ-awesomeTable.pdf.

מַסְקָנָה

חילוץ טקסט ממסמכי PDF היא דרישה קריטית בעולם שטוף מידע דיגיטלי. בחקרנו של תהליך זה, בחנו שני מסלולים דינמיים: האחד דרך Aspose.PDF Cloud SDK הרב-תכליתי עבור Python, והשני באמצעות השילוב העוצמתי של Aspose.PDF Cloud ופקודות cURL.

שתי הגישות מגשרות על הפער בין תוכן PDF סטטי לטקסט דינמי, ומשפרות את הדרך בה אנו מנהלים, מנתחים ומשתמשים במידע דיגיטלי. בין אם אתה בוחר בתחכום של ה-SDK או בפשטות של פקודות cURL, שני המסלולים מובילים להמרת PDF לטקסט יעילה, מה שמאפשר לך לפתוח את שפע הנתונים הטקסטואליים החבויים בתוך מסמכי PDF.

מאמרים קשורים

אנו ממליצים גם לבקר בקישורים הבאים כדי ללמוד עוד על: