PDF கோப்புகள் தகவல் மற்றும் தரவுப் பகிர்வுக்காக இணையத்தில் பரவலாகப் பயன்படுத்தப்படுகின்றன. எந்தவொரு தளத்திலும் பார்க்கும் போது ஆவணங்களின் நம்பகத்தன்மையைப் பராமரிப்பதால் அவை மிகவும் பிரபலமாக உள்ளன. இருப்பினும், மூலத்தின் மீது எங்களிடம் கட்டுப்பாடு இல்லை மற்றும் சில கோப்புகள் ஸ்கேன் செய்யப்பட்ட வடிவத்தில் பகிரப்படுகின்றன. சில நேரங்களில் நீங்கள் ஒரு படத்தை PDF ஆகப் பிடிக்கிறீர்கள், பின்னர் நீங்கள் கோப்பிலிருந்து உள்ளடக்கத்தைப் பிரித்தெடுக்க வேண்டும். எனவே OCR செயல்பாட்டைச் செய்து உரையைப் பிரித்தெடுப்பதே சாத்தியமான தீர்வாகும். இருப்பினும், OCR செயல்பாட்டிற்குப் பிறகு, நீங்கள் கோப்பைப் பாதுகாக்க வேண்டும் என்றால், PDF வடிவத்திற்கு மாற்றுவது ஒரு சாத்தியமான தீர்வாகும். இந்த கட்டுரையில், ஸ்கேன் செய்யப்பட்ட PDF ஐ Python ஐப் பயன்படுத்தி உரை PDF ஆக மாற்றுவது எப்படி என்பதைப் பற்றி விவாதிக்கப் போகிறோம்.
OCR PDF API
Aspose.PDF Cloud SDK for Python என்பது Aspose.PDF Cloud ஐச் சுற்றி ஒரு ரேப்பர் ஆகும். பைதான் பயன்பாட்டிற்குள் அனைத்து PDF கோப்பு செயலாக்க திறன்களையும் செய்ய இது உங்களை அனுமதிக்கிறது. Adobe Acrobat அல்லது வேறு எந்த பயன்பாடும் இல்லாமல் PDF கோப்புகளை கையாளவும். எனவே SDK ஐப் பயன்படுத்த, முதல் படி அதன் நிறுவல் ஆகும், மேலும் இது PIP மற்றும் GitHub களஞ்சியத்தில் பதிவிறக்கம் செய்யக் கிடைக்கிறது. இப்போது கணினியில் SDK இன் சமீபத்திய பதிப்பை நிறுவ டெர்மினல்/கமாண்ட் ப்ராம்ட்டில் பின்வரும் கட்டளையை இயக்கவும்.
pip install asposepdfcloud
MS விஷுவல் ஸ்டுடியோ
விஷுவல் ஸ்டுடியோ திட்டத்தில் உங்கள் பைதான் திட்டத்தில் நேரடியாக குறிப்பை நீங்கள் சேர்க்கலாம். பைதான் சூழல் சாளரத்தின் கீழ் asposepdfcloud தொகுப்பாக தேடவும். நிறுவல் செயல்முறையை முடிக்க கீழே உள்ள படத்தில் எண்ணப்பட்டுள்ள படிகளைப் பின்பற்றவும்.
Aspose.Cloud Dashboard
எங்கள் APIகளை அங்கீகரிக்கப்பட்ட நபர்கள் மட்டுமே அணுக முடியும் என்பதால், அடுத்த படியாக [Aspose.Cloud டாஷ்போர்டில் 6 கணக்கை உருவாக்க வேண்டும். உங்களிடம் GitHub அல்லது Google கணக்கு இருந்தால், பதிவு செய்யவும் அல்லது, 7 ஒரு புதிய கணக்கை உருவாக்கு பொத்தானைக் கிளிக் செய்து தேவையான தகவலை வழங்கவும். இப்போது நற்சான்றிதழ்களைப் பயன்படுத்தி டாஷ்போர்டில் உள்நுழைந்து, டேஷ்போர்டிலிருந்து பயன்பாடுகள் பகுதியை விரிவுபடுத்தி, கிளையண்ட் ஐடி மற்றும் கிளையண்ட் ரகசிய விவரங்களைப் பார்க்க, கிளையண்ட் நற்சான்றிதழ்கள் பகுதியை நோக்கி கீழே உருட்டவும்.
படம் PDF முதல் பைத்தானில் தேடக்கூடிய PDF வரை
ஸ்கேன் செய்யப்பட்ட PDF ஆவணத்தில் OCR செயல்பாட்டைச் செய்ய கீழே கொடுக்கப்பட்டுள்ள படிகளைப் பின்பற்றவும், பின்னர் அதை தேடக்கூடியதாக சேமிக்கவும் (pdf தேடக்கூடியதாக ஆக்கு). பைத்தானைப் பயன்படுத்தி இலவச ஆன்லைன் OCR ஐ உருவாக்க இந்தப் படிகள் உதவுகின்றன.
- முதலில், கிளையண்ட் ஐடி கிளையண்ட் ரகசியத்தை வாதங்களாக வழங்கும் போது, ApiClient வகுப்பின் நிகழ்வை உருவாக்க வேண்டும்.
- இரண்டாவதாக, ApiClient பொருளை உள்ளீட்டு வாதமாக எடுத்துக் கொள்ளும் PdfApi வகுப்பின் ஒரு நிகழ்வை உருவாக்கவும்
- இப்போது PdfApi வகுப்பின் putsearchabledocument(..) முறையை அழைக்கவும், இது உள்ளீடு PDF பெயரையும் OCR இன்ஜின் மொழியைக் குறிக்கும் விருப்ப அளவுருவையும் எடுக்கும்.
def ocrPDF():
try:
#Client credentials
client_secret = "406b404b2df649611e508bbcfcd2a77f"
client_id = "88d1cda8-b12c-4a80-b1ad-c85ac483c5c5"
#initialize PdfApi client instance using client credetials
pdf_api_client = asposepdfcloud.api_client.ApiClient(client_secret, client_id)
# PdfApiClient ஐ வாதமாக அனுப்பும் போது PdfApi நிகழ்வை உருவாக்கவும்
pdf_api = PdfApi(pdf_api_client)
#input PDF file name
input_file = 'image-based-pdf-sample.pdf'
# OCR செயல்பாட்டைச் செய்ய API ஐ அழைக்கவும் மற்றும் கிளவுட் சேமிப்பகத்தில் வெளியீட்டைச் சேமிக்கவும்
response = pdf_api.put_searchable_document(name=input_file,lang='eng')
# கன்சோலில் செய்தியை அச்சிடுங்கள் (விரும்பினால்)
print('Image PDF successfully converted to Text PDF !')
except ApiException as e:
print("Exception while calling PdfApi: {0}".format(e))
print("Code:" + str(e.code))
print("Message:" + e.message)
மேலே உள்ள படத்தில், இடது பகுதி உள்ளீடு ஸ்கேன் செய்யப்பட்ட PDF கோப்பைக் குறிக்கிறது மற்றும் வலது பக்கத்தில் உள்ள பகுதி அதன் விளைவாக வரும் உரை அடிப்படையிலான PDF இன் முன்னோட்டத்தைக் காட்டுகிறது. மேலே உள்ள எடுத்துக்காட்டில் பயன்படுத்தப்பட்ட மாதிரி கோப்புகளை image-based-pdf-sample.pdf மற்றும் OCR-Result.pdf இலிருந்து பதிவிறக்கம் செய்யலாம்.
CURL கட்டளைகளைப் பயன்படுத்தி OCR ஆன்லைனில்
REST APIகளை cURL கட்டளைகள் வழியாகவும் அணுகலாம் மற்றும் எங்கள் கிளவுட் APIகள் REST கட்டமைப்பை அடிப்படையாகக் கொண்டவை என்பதால், PDF OCR ஆன்லைனில் செய்ய cURL கட்டளையையும் பயன்படுத்தலாம். இருப்பினும், மாற்றும் செயல்பாட்டைத் தொடர்வதற்கு முன், Aspose.Cloud டாஷ்போர்டில் குறிப்பிடப்பட்டுள்ள உங்கள் தனிப்பட்ட கிளையன்ட் நற்சான்றிதழ்களின் அடிப்படையில் நாங்கள் JSON வலை டோக்கனை (JWT) உருவாக்க வேண்டும். எங்கள் APIகள் பதிவுசெய்யப்பட்ட பயனர்களுக்கு மட்டுமே அணுகக்கூடியவை என்பதால் இது கட்டாயமாகும். JWT டோக்கனை உருவாக்க பின்வரும் கட்டளையை இயக்கவும்.
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=88d1cda8-b12c-4a80-b1ad-c85ac483c5c5&client_secret=406b404b2df649611e508bbcfcd2a77f" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
JWT டோக்கனைப் பெற்றவுடன், OCR செயல்பாட்டைச் செய்ய பின்வரும் கட்டளையை இயக்கவும் மற்றும் வெளியீட்டை அதே கிளவுட் சேமிப்பகத்தில் சேமிக்கவும்.
curl -v -X PUT "https://api.aspose.cloud/v3.0/pdf/image-based-pdf-sample.pdf/ocr" \
-H "accept: application/json" \
-H "authorization: Bearer <JWT Token>"
முடிவுரை
இந்த கட்டுரையில், பைதான் குறியீடு துணுக்கைப் பயன்படுத்தி படத்தின் PDF முதல் தேடக்கூடிய PDF வரையிலான படிகளைப் பற்றி விவாதித்தோம். CURL கட்டளைகளைப் பயன்படுத்தி OCR ஆன்லைனில் எவ்வாறு செயல்படுத்துவது என்பது பற்றிய விவரங்களையும் நாங்கள் ஆராய்ந்தோம். எங்களின் கிளவுட் SDKகள் MIT உரிமத்தின் கீழ் உருவாக்கப்பட்டதால், நீங்கள் GitHub இலிருந்து முழுமையான குறியீடு துணுக்கைப் பதிவிறக்கம் செய்து உங்கள் தேவைகளுக்கு ஏற்ப புதுப்பிக்கலாம். Cloud API ஆல் தற்போது வழங்கப்படும் மற்ற அற்புதமான அம்சங்களைப் பற்றி மேலும் அறிய [டெவலப்பர் கையேட்டை12 ஆராயுமாறு நாங்கள் பரிந்துரைக்கிறோம்.
உங்களுக்கு ஏதேனும் தொடர்புடைய வினவல்கள் இருந்தால் அல்லது எங்கள் APIகளைப் பயன்படுத்தும் போது ஏதேனும் சிக்கல்கள் ஏற்பட்டால், [இலவச வாடிக்கையாளர் ஆதரவு மன்றம்13 வழியாக எங்களைத் தொடர்பு கொள்ளவும்.
தொடர்புடைய கட்டுரைகள்
மேலும் அறிய பின்வரும் கட்டுரைகளைப் படிக்கவும் பரிந்துரைக்கிறோம்