PDF OCR

PDF सञ्चिकाः अन्तर्जालमाध्यमेन सूचनानां, आँकडासाझेदारीणां च कृते बहुधा उपयुज्यन्ते । ते अत्यन्तं लोकप्रियाः सन्ति यतोहि ते कस्मिन् अपि मञ्चे द्रष्टुं दस्तावेजानां निष्ठां निर्वाहयन्ति । परन्तु अस्माकं स्रोतस्य नियन्त्रणं नास्ति तथा च काश्चन सञ्चिकाः स्कैन्ड् प्रारूपेण साझाः भवन्ति । कदाचित् भवान् PDF रूपेण चित्रं गृह्णाति पश्चात् सञ्चिकातः सामग्रीं निष्कासयितुं आवश्यकम् । अतः एकं व्यवहार्यं समाधानं OCR ऑपरेशनं कृत्वा पाठं निष्कासयितुं भवति । परन्तु OCR-सञ्चालनस्य अनन्तरं यदि भवान् सञ्चिकां संरक्षितुं इच्छति तर्हि PDF प्रारूपेण परिवर्तनं व्यवहार्यं समाधानम् अस्ति । अस्मिन् लेखे वयं Python इत्यस्य उपयोगेन स्कैन् कृतं PDF Text PDF इत्यत्र कथं परिवर्तयितुं शक्यते इति पदानाम् चर्चां कर्तुं गच्छामः ।

ओसीआर पीडीएफ एपीआई

Aspose.PDF Cloud SDK for Python Aspose.PDF Cloud इत्यस्य परितः एकः आवरणः अस्ति । एतत् भवन्तं Python अनुप्रयोगस्य अन्तः सर्वाणि PDF सञ्चिकाप्रक्रियाकरणक्षमतानि कर्तुं समर्थयति । Adobe Acrobat अथवा अन्यत् किमपि अनुप्रयोगं विना PDF सञ्चिकासु परिवर्तनं कुर्वन्तु। अतः SDK इत्यस्य उपयोगाय प्रथमं सोपानं तस्य संस्थापनम् अस्ति, तथा च PIP तथा GitHub भण्डारस्य उपरि डाउनलोड् कर्तुं उपलभ्यते । अधुना SDK इत्यस्य नवीनतमं संस्करणं सिस्टम् इत्यत्र संस्थापयितुं टर्मिनल्/कमाण्ड् प्रॉम्प्ट् इत्यत्र निम्नलिखितम् आदेशं निष्पादयन्तु ।

 pip install asposepdfcloud

एम एस विजुअल स्टूडियो

भवान् Visual Studio परियोजनायाः अन्तः स्वस्य Python परियोजनायां सन्दर्भं प्रत्यक्षतया अपि योजयितुं शक्नोति । कृपया Python वातावरणविण्डो इत्यस्य अधः asposepdfcloud इत्येतत् संकुलरूपेण अन्वेष्टुम् । संस्थापनप्रक्रियायाः पूर्णतायै कृपया अधोलिखिते चित्रे सङ्ख्यायुक्तानि पदानि अनुसृत्य ।

Aspose.PDF मेघ पायथन

चित्रम् १:- पायथन् संकुलस्य कृते Aspose.PDF Cloud SDK ।

Aspose.मेघ डैशबोर्ड

यतः अस्माकं एपिआइ केवलं अधिकृतव्यक्तिभ्यः एव सुलभं भवति, अतः अग्रिमः सोपानः Aspose.Cloud dashboard इत्यत्र खातं निर्मातुं भवति । यदि भवतां समीपे GitHub अथवा Google खाता अस्ति तर्हि केवलं Sign Up अथवा, Create a new Account बटन् क्लिक् कृत्वा आवश्यकं सूचनां प्रदातुम् । अधुना credentials इत्यस्य उपयोगेन dashboard मध्ये login कृत्वा dashboard तः Applications इति विभागं विस्तारयन्तु तथा Client ID तथा Client Secret विवरणं द्रष्टुं Client Credentials विभागं प्रति अधः स्क्रॉल कुर्वन्तु

ग्राहक प्रमाणपत्रम्

चित्रम् २:- Aspose.Cloud dashboard इत्यत्र क्लायन्ट् प्रमाणपत्राणि।

पायथन् मध्ये अन्वेषणीयं PDF पर्यन्तं चित्रं PDF यावत्

कृपया स्कैन् कृते PDF दस्तावेजे OCR संचालनं कर्तुं अधोलिखितानां चरणानां अनुसरणं कुर्वन्तु ततः तत् अन्वेषणीयरूपेण रक्षन्तु (pdf अन्वेषणीयं कुर्वन्तु)। एते पदानि अस्मान् पायथन् इत्यस्य उपयोगेन निःशुल्कं ऑनलाइन OCR विकसितुं साहाय्यं कुर्वन्ति ।

  • प्रथमं, अस्माभिः Client ID Client Secret इत्यस्य आर्गुमेण्ट् इत्यस्य रूपेण प्रदातुं ApiClient क्लास् इत्यस्य इन्स्टन्स् निर्मातव्यम्
  • द्वितीयं, PdfApi वर्गस्य एकं उदाहरणं रचयन्तु यत् ApiClient ऑब्जेक्ट् इत्येतत् input argument रूपेण गृह्णाति
  • अधुना PdfApi वर्गस्य putsearchabledocument(..) मेथड् आह्वयन्तु यत् इनपुट् PDF नाम गृह्णाति तथा च OCR इञ्जिनस्य भाषां सूचयति वैकल्पिकं पैरामीटर् गृह्णाति ।
def ocrPDF():
    try:
        #Client credentials
        client_secret = "406b404b2df649611e508bbcfcd2a77f"
        client_id = "88d1cda8-b12c-4a80-b1ad-c85ac483c5c5"

        #initialize PdfApi client instance using client credetials
        pdf_api_client = asposepdfcloud.api_client.ApiClient(client_secret, client_id)

        # PdfApiClient इत्येतत् तर्करूपेण पारयन् PdfApi उदाहरणं रचयन्तु
        pdf_api = PdfApi(pdf_api_client)

        #input PDF file name
        input_file = 'image-based-pdf-sample.pdf'

        # OCR संचालनं कर्तुं एपिआइ आह्वयन्तु तथा च आउटपुट् क्लाउड् भण्डारणस्थाने रक्षन्तु
        response = pdf_api.put_searchable_document(name=input_file,lang='eng')

        # कन्सोल् मध्ये सन्देशं मुद्रयन्तु (वैकल्पिकम्)
        print('Image PDF successfully converted to Text PDF !')    
    except ApiException as e:
        print("Exception while calling PdfApi: {0}".format(e))
        print("Code:" + str(e.code))
        print("Message:" + e.message)
PDF OCR पूर्वावलोकन

चित्रम् ३:- PDF OCR संचालनस्य पूर्वावलोकनम्।

उपरि चित्रे वामभागः इनपुट् स्कैन् कृतं PDF सञ्चिकां सूचयति तथा च दक्षिणपार्श्वे भागः परिणामी पाठ-आधारितस्य PDF इत्यस्य पूर्वावलोकनं दर्शयति । उपर्युक्ते उदाहरणे प्रयुक्ताः नमूनासञ्चिकाः image-based-pdf-sample.pdf तथा OCR-Result.pdf इत्यस्मात् डाउनलोड् कर्तुं शक्यन्ते ।

cURL Commands इत्यस्य उपयोगेन OCR online इति

REST APIs इत्येतत् cURL आदेशद्वारा अपि अभिगन्तुं शक्यते तथा च यतः अस्माकं Cloud APIs REST आर्किटेक्चर इत्यस्य आधारेण भवति, अतः वयं PDF OCR ऑनलाइन कर्तुं cURL आदेशस्य उपयोगं अपि कर्तुं शक्नुमः । तथापि, रूपान्तरणसञ्चालनं कर्तुं पूर्वं, अस्माभिः Aspose.Cloud डैशबोर्ड् इत्यत्र निर्दिष्टस्य भवतः व्यक्तिगतग्राहकप्रमाणपत्रस्य आधारेण JSON Web Token (JWT) उत्पन्नं कर्तव्यम् अस्माकं एपिआइ केवलं पञ्जीकृतप्रयोक्तृभ्यः एव सुलभं भवति इति कारणेन अनिवार्यम् । कृपया JWT टोकन उत्पन्नं कर्तुं निम्नलिखितम् आदेशं निष्पादयन्तु ।

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=88d1cda8-b12c-4a80-b1ad-c85ac483c5c5&client_secret=406b404b2df649611e508bbcfcd2a77f" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

एकदा अस्माकं समीपे JWT टोकन भवति तदा कृपया OCR ऑपरेशनं कर्तुं निम्नलिखितम् आदेशं निष्पादयन्तु तथा च आउटपुट् समाने क्लाउड् स्टोरेज् मध्ये रक्षन्तु ।

curl -v -X PUT "https://api.aspose.cloud/v3.0/pdf/image-based-pdf-sample.pdf/ocr" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>"

निगमन

अस्मिन् लेखे वयं Python code snippet इत्यस्य उपयोगेन Image PDF to Searchable PDF इत्यस्य चरणानां विषये चर्चां कृतवन्तः । cURL आदेशानां उपयोगेन OCR Online कथं करणीयम् इति विवरणमपि वयं अन्वेषितवन्तः । यथा अस्माकं क्लाउड् SDKs MIT अनुज्ञापत्रस्य अन्तर्गतं विकसिताः सन्ति, अतः भवान् GitHub इत्यस्मात् सम्पूर्णं कोडस्निपेट् डाउनलोड् कृत्वा स्वस्य आवश्यकतानुसारं अपडेट् कर्तुं शक्नोति । वयं भवन्तं Developer Guide अन्वेष्टुं बहु अनुशंसयामः यत् भवन्तः वर्तमानकाले Cloud API द्वारा प्रस्तावितानां अन्येषां रोमाञ्चकारीणां विशेषतानां विषये अधिकं ज्ञातुं शक्नुवन्ति ।

यदि भवतः किमपि सम्बन्धितं प्रश्नं भवति अथवा अस्माकं एपिआइ-उपयोगं कुर्वन् किमपि समस्यां प्राप्नोति तर्हि कृपया निःशुल्कग्राहकसमर्थनमञ्चः मार्गेण अस्माभिः सह सम्पर्कं कर्तुं निःशङ्कं भवन्तु ।

सम्बन्धित लेख

अधिकं ज्ञातुं निम्नलिखितलेखान् अपि गच्छन्तु इति वयं सुचयामः