PDF OCR

PDF கோப்புகள் தகவல் மற்றும் தரவுப் பகிர்வுக்காக இணையத்தில் பரவலாகப் பயன்படுத்தப்படுகின்றன. எந்தவொரு தளத்திலும் பார்க்கும் போது ஆவணங்களின் நம்பகத்தன்மையைப் பராமரிப்பதால் அவை மிகவும் பிரபலமாக உள்ளன. இருப்பினும், மூலத்தின் மீது எங்களிடம் கட்டுப்பாடு இல்லை மற்றும் சில கோப்புகள் ஸ்கேன் செய்யப்பட்ட வடிவத்தில் பகிரப்படுகின்றன. சில நேரங்களில் நீங்கள் ஒரு படத்தை PDF ஆகப் பிடிக்கிறீர்கள், பின்னர் நீங்கள் கோப்பிலிருந்து உள்ளடக்கத்தைப் பிரித்தெடுக்க வேண்டும். எனவே OCR செயல்பாட்டைச் செய்து உரையைப் பிரித்தெடுப்பதே சாத்தியமான தீர்வாகும். இருப்பினும், OCR செயல்பாட்டிற்குப் பிறகு, நீங்கள் கோப்பைப் பாதுகாக்க வேண்டும் என்றால், PDF வடிவத்திற்கு மாற்றுவது ஒரு சாத்தியமான தீர்வாகும். இந்த கட்டுரையில், ஸ்கேன் செய்யப்பட்ட PDF ஐ Python ஐப் பயன்படுத்தி உரை PDF ஆக மாற்றுவது எப்படி என்பதைப் பற்றி விவாதிக்கப் போகிறோம்.

OCR PDF API

Aspose.PDF Cloud SDK for Python என்பது Aspose.PDF Cloud ஐச் சுற்றி ஒரு ரேப்பர் ஆகும். பைதான் பயன்பாட்டிற்குள் அனைத்து PDF கோப்பு செயலாக்க திறன்களையும் செய்ய இது உங்களை அனுமதிக்கிறது. Adobe Acrobat அல்லது வேறு எந்த பயன்பாடும் இல்லாமல் PDF கோப்புகளை கையாளவும். எனவே SDK ஐப் பயன்படுத்த, முதல் படி அதன் நிறுவல் ஆகும், மேலும் இது PIP மற்றும் GitHub களஞ்சியத்தில் பதிவிறக்கம் செய்யக் கிடைக்கிறது. இப்போது கணினியில் SDK இன் சமீபத்திய பதிப்பை நிறுவ டெர்மினல்/கமாண்ட் ப்ராம்ட்டில் பின்வரும் கட்டளையை இயக்கவும்.

 pip install asposepdfcloud

MS விஷுவல் ஸ்டுடியோ

விஷுவல் ஸ்டுடியோ திட்டத்தில் உங்கள் பைதான் திட்டத்தில் நேரடியாக குறிப்பை நீங்கள் சேர்க்கலாம். பைதான் சூழல் சாளரத்தின் கீழ் asposepdfcloud தொகுப்பாக தேடவும். நிறுவல் செயல்முறையை முடிக்க கீழே உள்ள படத்தில் எண்ணப்பட்டுள்ள படிகளைப் பின்பற்றவும்.

Aspose.PDF கிளவுட் பைதான்

படம் 1:- பைதான் தொகுப்பிற்கான Aspose.PDF கிளவுட் SDK.

Aspose.Cloud Dashboard

எங்கள் APIகளை அங்கீகரிக்கப்பட்ட நபர்கள் மட்டுமே அணுக முடியும் என்பதால், அடுத்த படியாக [Aspose.Cloud டாஷ்போர்டில் 6 கணக்கை உருவாக்க வேண்டும். உங்களிடம் GitHub அல்லது Google கணக்கு இருந்தால், பதிவு செய்யவும் அல்லது, 7 ஒரு புதிய கணக்கை உருவாக்கு பொத்தானைக் கிளிக் செய்து தேவையான தகவலை வழங்கவும். இப்போது நற்சான்றிதழ்களைப் பயன்படுத்தி டாஷ்போர்டில் உள்நுழைந்து, டேஷ்போர்டிலிருந்து பயன்பாடுகள் பகுதியை விரிவுபடுத்தி, கிளையண்ட் ஐடி மற்றும் கிளையண்ட் ரகசிய விவரங்களைப் பார்க்க, கிளையண்ட் நற்சான்றிதழ்கள் பகுதியை நோக்கி கீழே உருட்டவும்.

வாடிக்கையாளர் சான்றுகள்

படம் 2:- Aspose.Cloud டாஷ்போர்டில் கிளையண்ட் நற்சான்றிதழ்கள்.

படம் PDF முதல் பைத்தானில் தேடக்கூடிய PDF வரை

ஸ்கேன் செய்யப்பட்ட PDF ஆவணத்தில் OCR செயல்பாட்டைச் செய்ய கீழே கொடுக்கப்பட்டுள்ள படிகளைப் பின்பற்றவும், பின்னர் அதை தேடக்கூடியதாக சேமிக்கவும் (pdf தேடக்கூடியதாக ஆக்கு). பைத்தானைப் பயன்படுத்தி இலவச ஆன்லைன் OCR ஐ உருவாக்க இந்தப் படிகள் உதவுகின்றன.

  • முதலில், கிளையண்ட் ஐடி கிளையண்ட் ரகசியத்தை வாதங்களாக வழங்கும் போது, ApiClient வகுப்பின் நிகழ்வை உருவாக்க வேண்டும்.
  • இரண்டாவதாக, ApiClient பொருளை உள்ளீட்டு வாதமாக எடுத்துக் கொள்ளும் PdfApi வகுப்பின் ஒரு நிகழ்வை உருவாக்கவும்
  • இப்போது PdfApi வகுப்பின் putsearchabledocument(..) முறையை அழைக்கவும், இது உள்ளீடு PDF பெயரையும் OCR இன்ஜின் மொழியைக் குறிக்கும் விருப்ப அளவுருவையும் எடுக்கும்.
def ocrPDF():
    try:
        #Client credentials
        client_secret = "406b404b2df649611e508bbcfcd2a77f"
        client_id = "88d1cda8-b12c-4a80-b1ad-c85ac483c5c5"

        #initialize PdfApi client instance using client credetials
        pdf_api_client = asposepdfcloud.api_client.ApiClient(client_secret, client_id)

        # PdfApiClient ஐ வாதமாக அனுப்பும் போது PdfApi நிகழ்வை உருவாக்கவும்
        pdf_api = PdfApi(pdf_api_client)

        #input PDF file name
        input_file = 'image-based-pdf-sample.pdf'

        # OCR செயல்பாட்டைச் செய்ய API ஐ அழைக்கவும் மற்றும் கிளவுட் சேமிப்பகத்தில் வெளியீட்டைச் சேமிக்கவும்
        response = pdf_api.put_searchable_document(name=input_file,lang='eng')

        # கன்சோலில் செய்தியை அச்சிடுங்கள் (விரும்பினால்)
        print('Image PDF successfully converted to Text PDF !')    
    except ApiException as e:
        print("Exception while calling PdfApi: {0}".format(e))
        print("Code:" + str(e.code))
        print("Message:" + e.message)
PDF OCR மாதிரிக்காட்சி

படம் 3:- PDF OCR செயல்பாட்டின் முன்னோட்டம்.

மேலே உள்ள படத்தில், இடது பகுதி உள்ளீடு ஸ்கேன் செய்யப்பட்ட PDF கோப்பைக் குறிக்கிறது மற்றும் வலது பக்கத்தில் உள்ள பகுதி அதன் விளைவாக வரும் உரை அடிப்படையிலான PDF இன் முன்னோட்டத்தைக் காட்டுகிறது. மேலே உள்ள எடுத்துக்காட்டில் பயன்படுத்தப்பட்ட மாதிரி கோப்புகளை image-based-pdf-sample.pdf மற்றும் OCR-Result.pdf இலிருந்து பதிவிறக்கம் செய்யலாம்.

CURL கட்டளைகளைப் பயன்படுத்தி OCR ஆன்லைனில்

REST APIகளை cURL கட்டளைகள் வழியாகவும் அணுகலாம் மற்றும் எங்கள் கிளவுட் APIகள் REST கட்டமைப்பை அடிப்படையாகக் கொண்டவை என்பதால், PDF OCR ஆன்லைனில் செய்ய cURL கட்டளையையும் பயன்படுத்தலாம். இருப்பினும், மாற்றும் செயல்பாட்டைத் தொடர்வதற்கு முன், Aspose.Cloud டாஷ்போர்டில் குறிப்பிடப்பட்டுள்ள உங்கள் தனிப்பட்ட கிளையன்ட் நற்சான்றிதழ்களின் அடிப்படையில் நாங்கள் JSON வலை டோக்கனை (JWT) உருவாக்க வேண்டும். எங்கள் APIகள் பதிவுசெய்யப்பட்ட பயனர்களுக்கு மட்டுமே அணுகக்கூடியவை என்பதால் இது கட்டாயமாகும். JWT டோக்கனை உருவாக்க பின்வரும் கட்டளையை இயக்கவும்.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=88d1cda8-b12c-4a80-b1ad-c85ac483c5c5&client_secret=406b404b2df649611e508bbcfcd2a77f" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

JWT டோக்கனைப் பெற்றவுடன், OCR செயல்பாட்டைச் செய்ய பின்வரும் கட்டளையை இயக்கவும் மற்றும் வெளியீட்டை அதே கிளவுட் சேமிப்பகத்தில் சேமிக்கவும்.

curl -v -X PUT "https://api.aspose.cloud/v3.0/pdf/image-based-pdf-sample.pdf/ocr" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>"

முடிவுரை

இந்த கட்டுரையில், பைதான் குறியீடு துணுக்கைப் பயன்படுத்தி படத்தின் PDF முதல் தேடக்கூடிய PDF வரையிலான படிகளைப் பற்றி விவாதித்தோம். CURL கட்டளைகளைப் பயன்படுத்தி OCR ஆன்லைனில் எவ்வாறு செயல்படுத்துவது என்பது பற்றிய விவரங்களையும் நாங்கள் ஆராய்ந்தோம். எங்களின் கிளவுட் SDKகள் MIT உரிமத்தின் கீழ் உருவாக்கப்பட்டதால், நீங்கள் GitHub இலிருந்து முழுமையான குறியீடு துணுக்கைப் பதிவிறக்கம் செய்து உங்கள் தேவைகளுக்கு ஏற்ப புதுப்பிக்கலாம். Cloud API ஆல் தற்போது வழங்கப்படும் மற்ற அற்புதமான அம்சங்களைப் பற்றி மேலும் அறிய [டெவலப்பர் கையேட்டை12 ஆராயுமாறு நாங்கள் பரிந்துரைக்கிறோம்.

உங்களுக்கு ஏதேனும் தொடர்புடைய வினவல்கள் இருந்தால் அல்லது எங்கள் APIகளைப் பயன்படுத்தும் போது ஏதேனும் சிக்கல்கள் ஏற்பட்டால், [இலவச வாடிக்கையாளர் ஆதரவு மன்றம்13 வழியாக எங்களைத் தொடர்பு கொள்ளவும்.

தொடர்புடைய கட்டுரைகள்

மேலும் அறிய பின்வரும் கட்டுரைகளைப் படிக்கவும் பரிந்துரைக்கிறோம்