PDF OCR

PDF ફાઇલોનો ઉપયોગ માહિતી અને ડેટા શેરિંગ માટે ઇન્ટરનેટ પર વ્યાપકપણે થાય છે. તેઓ ખૂબ જ લોકપ્રિય છે કારણ કે તેઓ કોઈપણ પ્લેટફોર્મ પર જોતી વખતે દસ્તાવેજોની વફાદારી જાળવી રાખે છે. જો કે, સ્ત્રોત પર અમારું નિયંત્રણ નથી અને કેટલીક ફાઇલો સ્કેન કરેલા ફોર્મેટમાં શેર કરવામાં આવી છે. કેટલીકવાર તમે પીડીએફ તરીકે છબી કેપ્ચર કરો છો અને પછીથી તમારે ફાઇલમાંથી સામગ્રી કાઢવાની જરૂર છે. તેથી એક સક્ષમ ઉકેલ એ છે કે OCR ઑપરેશન કરવું અને ટેક્સ્ટને બહાર કાઢવો. જો કે, OCR ઓપરેશન પછી, જો તમારે ફાઇલને સાચવવાની જરૂર હોય, તો પીડીએફ ફોર્મેટમાં રૂપાંતર એ એક યોગ્ય ઉકેલ છે. આ લેખમાં, અમે પાયથોનનો ઉપયોગ કરીને સ્કેન કરેલી પીડીએફને ટેક્સ્ટ પીડીએફમાં કેવી રીતે રૂપાંતરિત કરવું તેના પગલાંની ચર્ચા કરવા જઈ રહ્યા છીએ.

OCR PDF API

[Aspose.PDF Cloud SDK for Python2Aspose.PDF Cloud ની આસપાસ એક રેપર છે. તે તમને Python એપ્લિકેશનમાં બધી PDF ફાઇલ પ્રોસેસિંગ ક્ષમતાઓ કરવા માટે સક્ષમ કરે છે. એડોબ એક્રોબેટ અથવા અન્ય કોઈપણ એપ્લિકેશન વિના પીડીએફ ફાઇલોની હેરફેર કરો. તેથી SDK નો ઉપયોગ કરવા માટે, પ્રથમ પગલું એ તેનું ઇન્સ્ટોલેશન છે, અને તે PIP અને GitHub રીપોઝીટરી પર ડાઉનલોડ કરવા માટે ઉપલબ્ધ છે. હવે સિસ્ટમ પર SDK નું નવીનતમ સંસ્કરણ ઇન્સ્ટોલ કરવા માટે ટર્મિનલ/કમાન્ડ પ્રોમ્પ્ટ પર નીચેનો આદેશ ચલાવો.

 pip install asposepdfcloud

એમએસ વિઝ્યુઅલ સ્ટુડિયો

તમે વિઝ્યુઅલ સ્ટુડિયો પ્રોજેક્ટમાં તમારા પાયથોન પ્રોજેક્ટમાં સીધો સંદર્ભ પણ ઉમેરી શકો છો. મહેરબાની કરીને Python પર્યાવરણ વિન્ડો હેઠળ પેકેજ તરીકે asposepdfcloud શોધો. ઇન્સ્ટોલેશન પ્રક્રિયા પૂર્ણ કરવા માટે કૃપા કરીને નીચેની છબીમાં ક્રમાંકિત પગલાં અનુસરો.

Aspose.PDF ક્લાઉડ પાયથોન

છબી 1:- Python પેકેજ માટે Aspose.PDF ક્લાઉડ SDK.

Aspose.Cloud ડેશબોર્ડ

અમારા API માત્ર અધિકૃત વ્યક્તિઓ માટે જ ઍક્સેસિબલ હોવાથી, તેથી આગળનું પગલું [Aspose.Cloud ડેશબોર્ડ] પર એકાઉન્ટ બનાવવાનું છે6. જો તમારી પાસે GitHub અથવા Google એકાઉન્ટ હોય, તો ખાલી સાઇન અપ કરો અથવા, Create a new Account બટન પર ક્લિક કરો અને જરૂરી માહિતી પ્રદાન કરો. હવે ઓળખપત્રનો ઉપયોગ કરીને ડેશબોર્ડ પર લૉગિન કરો અને ડેશબોર્ડમાંથી એપ્લિકેશન વિભાગને વિસ્તૃત કરો અને ક્લાયંટ આઈડી અને ક્લાયન્ટ સિક્રેટ વિગતો જોવા માટે ક્લાયંટ ઓળખપત્ર વિભાગ તરફ નીચે સ્ક્રોલ કરો.

ક્લાઈન્ટ ઓળખપત્રો

છબી 2:- Aspose.Cloud ડેશબોર્ડ પર ક્લાયંટ ઓળખપત્ર.

Python માં શોધી શકાય તેવી PDF માટે છબી PDF

કૃપા કરીને સ્કેન કરેલા પીડીએફ દસ્તાવેજ પર OCR ઑપરેશન કરવા માટે નીચે આપેલા પગલાંને અનુસરો અને પછી તેને શોધી શકાય તેવા તરીકે સાચવો (pdf શોધવા યોગ્ય બનાવો). આ પગલાંઓ અમને Python નો ઉપયોગ કરીને નિઃશુલ્ક ઑનલાઇન OCR વિકસાવવામાં મદદ કરે છે.

  • પ્રથમ, ક્લાયંટ ID ક્લાયંટ સિક્રેટ દલીલો તરીકે પ્રદાન કરતી વખતે આપણે ApiClient ક્લાસનો દાખલો બનાવવાની જરૂર છે
  • બીજું, PdfApi ક્લાસનો એક દાખલો બનાવો જે ApiClient ઑબ્જેક્ટને ઇનપુટ દલીલ તરીકે લે છે
  • હવે PdfApi ક્લાસની putsearchabledocument(..) પદ્ધતિને કૉલ કરો જે ઇનપુટ PDF નામ અને OCR એન્જિનની ભાષા દર્શાવતું વૈકલ્પિક પરિમાણ લે છે.
def ocrPDF():
    try:
        #Client credentials
        client_secret = "406b404b2df649611e508bbcfcd2a77f"
        client_id = "88d1cda8-b12c-4a80-b1ad-c85ac483c5c5"

        #initialize PdfApi client instance using client credetials
        pdf_api_client = asposepdfcloud.api_client.ApiClient(client_secret, client_id)

        # દલીલ તરીકે PdfApiClient પસાર કરતી વખતે PdfApi દાખલો બનાવો
        pdf_api = PdfApi(pdf_api_client)

        #input PDF file name
        input_file = 'image-based-pdf-sample.pdf'

        # OCR ઑપરેશન કરવા માટે API ને કૉલ કરો અને ક્લાઉડ સ્ટોરેજમાં આઉટપુટ સાચવો
        response = pdf_api.put_searchable_document(name=input_file,lang='eng')

        # કન્સોલમાં સંદેશ છાપો (વૈકલ્પિક)
        print('Image PDF successfully converted to Text PDF !')    
    except ApiException as e:
        print("Exception while calling PdfApi: {0}".format(e))
        print("Code:" + str(e.code))
        print("Message:" + e.message)
PDF OCR પૂર્વાવલોકન

ઈમેજ 3:- PDF OCR ઓપરેશનનું પૂર્વાવલોકન.

ઉપરની ઇમેજમાં, ડાબો ભાગ ઇનપુટ સ્કેન કરેલી PDF ફાઇલને દર્શાવે છે અને જમણી બાજુનો ભાગ પરિણામી ટેક્સ્ટ-આધારિત PDFનું પૂર્વાવલોકન દર્શાવે છે. ઉપરોક્ત ઉદાહરણમાં વપરાયેલ નમૂના ફાઇલો image-based-pdf-sample.pdf અને OCR-Result.pdf પરથી ડાઉનલોડ કરી શકાય છે.

CURL આદેશોનો ઉપયોગ કરીને ઓસીઆર ઓનલાઈન

REST API ને cURL આદેશો દ્વારા પણ ઍક્સેસ કરી શકાય છે અને અમારા Cloud APIs REST આર્કિટેક્ચર પર આધારિત છે, તેથી અમે PDF OCR ઓનલાઈન કરવા માટે પણ cURL આદેશનો ઉપયોગ કરી શકીએ છીએ. જોકે, કન્વર્ઝન ઑપરેશન સાથે આગળ વધતાં પહેલાં, અમારે Aspose.Cloud ડેશબોર્ડ પર ઉલ્લેખિત તમારા વ્યક્તિગત ક્લાયંટ ઓળખપત્રોના આધારે JSON વેબ ટોકન (JWT) જનરેટ કરવાની જરૂર છે. તે ફરજિયાત છે કારણ કે અમારા API ફક્ત નોંધાયેલા વપરાશકર્તાઓ માટે જ ઍક્સેસિબલ છે. JWT ટોકન જનરેટ કરવા માટે કૃપા કરીને નીચેનો આદેશ ચલાવો.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=88d1cda8-b12c-4a80-b1ad-c85ac483c5c5&client_secret=406b404b2df649611e508bbcfcd2a77f" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

એકવાર અમારી પાસે JWT ટોકન થઈ જાય, કૃપા કરીને OCR ઑપરેશન કરવા માટે નીચેનો આદેશ ચલાવો અને સમાન ક્લાઉડ સ્ટોરેજમાં આઉટપુટ સાચવો.

curl -v -X PUT "https://api.aspose.cloud/v3.0/pdf/image-based-pdf-sample.pdf/ocr" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>"

નિષ્કર્ષ

આ લેખમાં, અમે પાયથોન કોડ સ્નિપેટનો ઉપયોગ કરીને ઇમેજ PDF થી શોધી શકાય તેવી PDF સુધીના પગલાંની ચર્ચા કરી છે. અમે સીઆરએલ આદેશોનો ઉપયોગ કરીને ઓસીઆર ઓનલાઈન કેવી રીતે કરવું તે અંગેની વિગતો પણ શોધી કાઢી છે. જેમ કે અમારા ક્લાઉડ SDKs MIT લાયસન્સ હેઠળ વિકસાવવામાં આવ્યા છે, તેથી તમે GitHub પરથી સંપૂર્ણ કોડ સ્નિપેટ ડાઉનલોડ કરી શકો છો અને તમારી જરૂરિયાતો અનુસાર તેને અપડેટ કરી શકો છો. હાલમાં ક્લાઉડ API દ્વારા ઓફર કરવામાં આવી રહેલી અન્ય આકર્ષક સુવિધાઓ વિશે વધુ જાણવા માટે અમે તમને વિકાસકર્તા માર્ગદર્શિકા નું અન્વેષણ કરવાની ખૂબ ભલામણ કરીએ છીએ.

જો તમારી પાસે કોઈપણ સંબંધિત પ્રશ્નો હોય અથવા અમારા API નો ઉપયોગ કરતી વખતે તમને કોઈ સમસ્યા આવે, તો કૃપા કરીને મફત ગ્રાહક સપોર્ટ ફોરમ દ્વારા અમારો સંપર્ક કરવા માટે નિઃસંકોચ કરો.

સંબંધિત લેખો

વિશે વધુ જાણવા માટે અમે નીચેના લેખોમાંથી પસાર થવાનું પણ સૂચન કરીએ છીએ