PDF OCR

PDF טעקעס זענען וויידלי געניצט איבער דער אינטערנעץ פֿאַר אינפֿאָרמאַציע און דאַטן ייַנטיילונג. זיי זענען גאַנץ פאָלקס ווייַל זיי האַלטן די פאַדעלאַטי פון דאָקומענטן ווען זיי זען אויף קיין פּלאַטפאָרמע. אָבער, מיר טאָן ניט האָבן קאָנטראָל איבער די מקור און עטלעכע טעקעס זענען שערד אין סקאַנד פֿאָרמאַט. מאל איר כאַפּן אַ בילד ווי אַ פּדף און שפּעטער איר דאַרפֿן צו עקסטראַקט די אינהאַלט פון דער טעקע. אַזוי אַ ווייאַבאַל לייזונג איז צו דורכפירן אַן OCR אָפּעראַציע און עקסטראַקט די טעקסט. אָבער, נאָך די OCR אָפּעראַציע, אויב איר דאַרפֿן צו ופהיטן די טעקע, קאַנווערזשאַן צו PDF פֿאָרמאַט איז אַ ווייאַבאַל לייזונג. אין דעם אַרטיקל, מיר וועלן דיסקוטירן די סטעפּס ווי צו גער אַ סקאַנד פּדף צו טעקסט פּדף מיט פּיטהאָן.

OCR PDF API

Aspose.PDF Cloud SDK פֿאַר Python איז אַ ראַפּער אַרום Aspose.PDF Cloud. עס אַלאַוז איר צו דורכפירן אַלע פּדף טעקע פּראַסעסינג קייפּאַבילאַטיז אין די Python אַפּלאַקיישאַן. מאַניפּולירן פּדף טעקעס אָן אַדאָובי אַקראָבאַט אָדער קיין אנדערע אַפּלאַקיישאַן. אַזוי צו נוצן די SDK, דער ערשטער שריט איז די ינסטאַלירונג, און עס איז בארעכטיגט פֿאַר אראפקאפיע איבער PIP און GitHub ריפּאַזאַטאָרי. איצט ויספירן די פאלגענדע באַפֿעל אויף די וואָקזאַל / באַפֿעל פּינטלעך צו ינסטאַלירן די לעצטע ווערסיע פון SDK אויף די סיסטעם.

 pip install asposepdfcloud

מיז וויסואַל סטודיאָ

איר קענט אויך לייגן די רעפֿערענץ אין דיין פּיטהאָן פּרויעקט גלייך אין די וויסואַל סטודיאָ פּרויעקט. ביטע זוכן asposepdfcloud ווי אַ פּעקל אונטער די Python סוויווע פֿענצטער. ביטע נאָכגיין די סטעפּס געציילט אין די בילד אונטן צו פאַרענדיקן די ינסטאַלירונג פּראָצעס.

Aspose.PDF קלאָוד פּיטהאָן

בילד 1: - Aspose.PDF קלאָוד סדק פֿאַר פּיטהאָן פּעקל.

אַספּאָסע. קלאָוד דאַשבאָרד

זינט אונדזער אַפּיס זענען בלויז צוטריטלעך פֿאַר אָטערייזד מענטשן, דער ווייַטער שריט איז צו שאַפֿן אַ חשבון אויף Aspose.Cloud דאַשבאָרד. אויב איר האָבן GitHub אָדער Google חשבון, פשוט צייכן אַרויף אָדער, גיט די [שאַפֿן אַ נייַ אַקאַונט] קנעפּל 7 און צושטעלן די פארלאנגט אינפֿאָרמאַציע. איצט לאָגין צו די דאַשבאָרד ניצן קראַדענטשאַלז און יקספּאַנד די אַפּפּליקאַטיאָנס אָפּטיילונג פֿון די דאַשבאָרד און מעגילע אַראָפּ צו די קליענט קראַדענטשאַלז אָפּטיילונג צו זען קליענט שייַן און קליענט סוד דעטאַילס.

קליענט קראַדענטשאַלז

בילד 2: - קליענט קראַדענטשאַלז אויף Aspose.Cloud דאַשבאָרד.

בילד פּדף צו סעאַרטשאַבלע פּדף אין פּיטהאָן

ביטע נאָכגיין די סטעפּס געגעבן אונטן צו דורכפירן OCR אָפּעראַציע אויף אַ סקאַנד פּדף דאָקומענט און דעמאָלט ראַטעווען עס ווי אַ סעאַרטשאַבלע (מאַכן פּדף סעאַרטשאַבלע). די סטעפּס העלפֿן אונדז צו אַנטוויקלען פריי אָנליין OCR ניצן Python.

  • ערשטער, מיר דאַרפֿן צו שאַפֿן אַ בייַשפּיל פון ApiClient קלאַס בשעת פּראַוויידינג Client ID Client Secret ווי אַרגומענטן
  • צווייטנס, שאַפֿן אַ בייַשפּיל פון PdfApi קלאַס וואָס נעמט ApiClient כייפעץ ווי אַרייַנשרייַב אַרגומענט
  • איצט רופן די putsearchabledocument(..) אופֿן פון PdfApi קלאַס וואָס נעמט אַרייַנשרייַב פּדף נאָמען און אַ אַפּשאַנאַל פּאַראַמעטער וואָס ינדיקייץ די שפּראַך פון OCR מאָטאָר.
def ocrPDF():
    try:
        #Client credentials
        client_secret = "406b404b2df649611e508bbcfcd2a77f"
        client_id = "88d1cda8-b12c-4a80-b1ad-c85ac483c5c5"

        #initialize PdfApi client instance using client credetials
        pdf_api_client = asposepdfcloud.api_client.ApiClient(client_secret, client_id)

        # שאַפֿן PdfApi בייַשפּיל בשעת גייט פארביי PdfApiClient ווי אַרגומענט
        pdf_api = PdfApi(pdf_api_client)

        #input PDF file name
        input_file = 'image-based-pdf-sample.pdf'

        # רופן די API צו דורכפירן OCR אָפּעראַציע און ראַטעווען די רעזולטאַט אין וואָלקן סטאָרידזש
        response = pdf_api.put_searchable_document(name=input_file,lang='eng')

        # דרוק אָנזאָג אין קאַנסאָול (אַפּשאַנאַל)
        print('Image PDF successfully converted to Text PDF !')    
    except ApiException as e:
        print("Exception while calling PdfApi: {0}".format(e))
        print("Code:" + str(e.code))
        print("Message:" + e.message)
PDF OCR פאָרויסיקע ווייַזונג

בילד 3: - פאָרויסיקע ווייַזונג פון PDF OCR אָפּעראַציע.

אין די בילד אויבן, די לינקס חלק דינאָוץ די אַרייַנשרייַב סקאַנד פּדף טעקע און דער חלק אויף די רעכט זייַט ווייזט אַ פאָרויסיקע ווייַזונג פון דער רעזולטאַט טעקסט-באזירט פּדף. די מוסטער טעקעס געניצט אין די אויבן בייַשפּיל קענען זיין דאַונלאָודיד פֿון image-based-pdf-sample.pdf און OCR-Result.pdf.

OCR אָנליין ניצן cURL קאַמאַנדז

די REST APIs קענען אויך זיין אַקסעסט דורך cURL קאַמאַנדז און ווי אונדזער קלאָוד אַפּיס זענען באזירט אויף REST אַרקאַטעקטשער, אַזוי מיר קענען אויך נוצן די cURL באַפֿעל צו דורכפירן PDF OCR אָנליין. אָבער, איידער פאָרזעצן מיט קאַנווערזשאַן אָפּעראַציע, מיר דאַרפֿן צו דזשענערייט אַ JSON וועב טאָקען (JWT) באזירט אויף דיין יחיד קליענט קראַדענטשאַלז ספּעסיפיעד איבער Aspose.Cloud דאַשבאָרד. עס איז מאַנדאַטאָרי ווייַל אונדזער אַפּיס זענען בלויז צוטריטלעך פֿאַר רעגיסטרירט ניצערס. ביטע ויספירן די פאלגענדע באַפֿעל צו דזשענערייט די JWT סימען.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=88d1cda8-b12c-4a80-b1ad-c85ac483c5c5&client_secret=406b404b2df649611e508bbcfcd2a77f" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

אַמאָל מיר האָבן די JWT סימען, ביטע ויספירן די פאלגענדע באַפֿעל צו דורכפירן די OCR אָפּעראַציע און ראַטעווען די רעזולטאַט אין דער זעלביקער וואָלקן סטאָרידזש.

curl -v -X PUT "https://api.aspose.cloud/v3.0/pdf/image-based-pdf-sample.pdf/ocr" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>"

מסקנא

אין דעם אַרטיקל, מיר האָבן דיסקאַסט די סטעפּס צו בילד פּדף צו סעאַרטשאַבלע פּדף ניצן פּיטהאָן קאָד סניפּ. מיר האָבן אויך יקספּלאָרד די דעטאַילס וועגן ווי צו דורכפירן OCR אָנליין ניצן די cURL קאַמאַנדז. ווי אונדזער וואָלקן SDKs זענען דעוועלאָפּעד אונטער MIT דערלויבעניש, אַזוי איר קענט אראפקאפיע די גאַנץ קאָד סניפּאַט פֿון GitHub און דערהייַנטיקן עס לויט דיין רעקווירעמענץ. מיר רעקאָמענדירן איר צו ויספאָרשן די דעוועלאָפּער גייד צו לערנען מער וועגן אנדערע יקסייטינג פֿעיִקייטן דערווייַל געפֿינט דורך Cloud API.

אויב איר האָט קיין פֿאַרבונדענע פֿראגן אָדער איר טרעפן קיין ישוז ווען איר נוצן אונדזער אַפּיס, ביטע פילן פריי צו קאָנטאַקט אונדז דורך די פריי קונה שטיצן פאָרום.

שייַכות אַרטיקלען

מיר אויך פֿאָרשלאָגן גיין דורך די פאלגענדע אַרטיקלען צו לערנען מער וועגן