পিডিএফ ওসিআর

PDF ফাইলগুলি ইন্টারনেটে ব্যাপকভাবে তথ্য এবং ডেটা ভাগ করে নেওয়ার জন্য ব্যবহৃত হয়। এগুলি বেশ জনপ্রিয় কারণ যে কোনও প্ল্যাটফর্মে দেখার সময় তারা নথির বিশ্বস্ততা বজায় রাখে। যাইহোক, উৎসের উপর আমাদের নিয়ন্ত্রণ নেই এবং কিছু ফাইল স্ক্যান করা ফরম্যাটে শেয়ার করা হয়। কখনও কখনও আপনি একটি পিডিএফ হিসাবে একটি ছবি ক্যাপচার এবং পরে আপনি ফাইল থেকে বিষয়বস্তু নিষ্কাশন করতে হবে. সুতরাং একটি কার্যকর সমাধান হল একটি OCR অপারেশন করা এবং পাঠ্যটি বের করা। যাইহোক, ওসিআর অপারেশনের পরে, আপনার যদি ফাইলটি সংরক্ষণ করার প্রয়োজন হয়, তাহলে পিডিএফ ফরম্যাটে রূপান্তর একটি কার্যকর সমাধান। এই নিবন্ধে, আমরা পাইথন ব্যবহার করে স্ক্যান করা পিডিএফকে টেক্সট পিডিএফ-এ রূপান্তর করার পদক্ষেপগুলি নিয়ে আলোচনা করতে যাচ্ছি।

OCR PDF API

[Aspose.PDF Cloud SDK-এর জন্য Python2 হল একটি মোড়ক Aspose.PDF ক্লাউড। এটি আপনাকে পাইথন অ্যাপ্লিকেশনের মধ্যে সমস্ত পিডিএফ ফাইল প্রক্রিয়াকরণ ক্ষমতা সম্পাদন করতে সক্ষম করে। Adobe Acrobat বা অন্য কোন অ্যাপ্লিকেশন ছাড়াই পিডিএফ ফাইলগুলি পরিচালনা করুন। তাই SDK ব্যবহার করার জন্য, প্রথম ধাপ হল এটির ইনস্টলেশন, এবং এটি PIP এবং GitHub সংগ্রহস্থলে ডাউনলোডের জন্য উপলব্ধ। এখন সিস্টেমে SDK এর সর্বশেষ সংস্করণ ইনস্টল করতে টার্মিনাল/কমান্ড প্রম্পটে নিম্নলিখিত কমান্ডটি চালান।

 pip install asposepdfcloud

এমএস ভিজ্যুয়াল স্টুডিও

আপনি ভিজ্যুয়াল স্টুডিও প্রকল্পের মধ্যে আপনার পাইথন প্রকল্পে সরাসরি রেফারেন্স যোগ করতে পারেন। অনুগ্রহ করে পাইথন এনভায়রনমেন্ট উইন্ডোর অধীনে একটি প্যাকেজ হিসাবে asposepdfcloud অনুসন্ধান করুন। ইনস্টলেশন প্রক্রিয়াটি সম্পূর্ণ করতে অনুগ্রহ করে নীচের ছবিতে নম্বর দেওয়া ধাপগুলি অনুসরণ করুন৷

Aspose.PDF ক্লাউড পাইথন

চিত্র 1:- পাইথন প্যাকেজের জন্য Aspose.PDF ক্লাউড SDK।

Aspose.Cloud ড্যাশবোর্ড

যেহেতু আমাদের API গুলি শুধুমাত্র অনুমোদিত ব্যক্তিদের কাছে অ্যাক্সেসযোগ্য, তাই পরবর্তী পদক্ষেপটি হল [Aspose.Cloud ড্যাশবোর্ডে একটি অ্যাকাউন্ট তৈরি করা 6৷ আপনার যদি গিটহাব বা Google অ্যাকাউন্ট থাকে, তাহলে কেবল সাইন আপ করুন বা, একটি নতুন অ্যাকাউন্ট তৈরি করুন বোতামে ক্লিক করুন এবং প্রয়োজনীয় তথ্য প্রদান করুন। এখন শংসাপত্র ব্যবহার করে ড্যাশবোর্ডে লগইন করুন এবং ড্যাশবোর্ড থেকে অ্যাপ্লিকেশন বিভাগটি প্রসারিত করুন এবং ক্লায়েন্ট আইডি এবং ক্লায়েন্ট সিক্রেট বিবরণ দেখতে ক্লায়েন্ট শংসাপত্র বিভাগে নীচে স্ক্রোল করুন।

ক্লায়েন্ট শংসাপত্র

ছবি 2:- Aspose.Cloud ড্যাশবোর্ডে ক্লায়েন্টের শংসাপত্র।

পাইথনে অনুসন্ধানযোগ্য পিডিএফ থেকে চিত্র পিডিএফ

একটি স্ক্যান করা পিডিএফ ডকুমেন্টে ওসিআর অপারেশন করার জন্য অনুগ্রহ করে নিচে দেওয়া ধাপগুলি অনুসরণ করুন এবং তারপর এটিকে অনুসন্ধানযোগ্য হিসাবে সংরক্ষণ করুন (পিডিএফ অনুসন্ধানযোগ্য করুন)। এই পদক্ষেপগুলি পাইথন ব্যবহার করে বিনামূল্যে অনলাইন OCR বিকাশ করতে আমাদের সাহায্য করে।

  • প্রথমত, আর্গুমেন্ট হিসাবে ক্লায়েন্ট আইডি ক্লায়েন্ট সিক্রেট প্রদান করার সময় আমাদের ApiClient ক্লাসের একটি উদাহরণ তৈরি করতে হবে
  • দ্বিতীয়ত, PdfApi ক্লাসের একটি উদাহরণ তৈরি করুন যা ApiClient অবজেক্টকে ইনপুট আর্গুমেন্ট হিসাবে নেয়
  • এখন PdfApi ক্লাসের putsearchabledocument(..) পদ্ধতিতে কল করুন যা ইনপুট PDF নাম এবং OCR ইঞ্জিনের ভাষা নির্দেশ করে একটি ঐচ্ছিক প্যারামিটার নেয়।
def ocrPDF():
    try:
        #Client credentials
        client_secret = "406b404b2df649611e508bbcfcd2a77f"
        client_id = "88d1cda8-b12c-4a80-b1ad-c85ac483c5c5"

        #initialize PdfApi client instance using client credetials
        pdf_api_client = asposepdfcloud.api_client.ApiClient(client_secret, client_id)

        # আর্গুমেন্ট হিসাবে PdfApiClient পাস করার সময় PdfApi উদাহরণ তৈরি করুন
        pdf_api = PdfApi(pdf_api_client)

        #input PDF file name
        input_file = 'image-based-pdf-sample.pdf'

        # OCR অপারেশন সঞ্চালনের জন্য API কল করুন এবং ক্লাউড স্টোরেজে আউটপুট সংরক্ষণ করুন
        response = pdf_api.put_searchable_document(name=input_file,lang='eng')

        # কনসোলে প্রিন্ট বার্তা (ঐচ্ছিক)
        print('Image PDF successfully converted to Text PDF !')    
    except ApiException as e:
        print("Exception while calling PdfApi: {0}".format(e))
        print("Code:" + str(e.code))
        print("Message:" + e.message)
PDF OCR পূর্বরূপ

ছবি 3:- PDF OCR অপারেশনের পূর্বরূপ।

উপরের ছবিতে, বাম অংশটি ইনপুট স্ক্যান করা পিডিএফ ফাইলকে নির্দেশ করে এবং ডান পাশের অংশটি ফলাফল টেক্সট-ভিত্তিক PDF এর একটি পূর্বরূপ দেখায়। উপরের উদাহরণে ব্যবহৃত নমুনা ফাইলগুলি image-based-pdf-sample.pdf এবং OCR-Result.pdf থেকে ডাউনলোড করা যেতে পারে।

CURL কমান্ড ব্যবহার করে OCR অনলাইন

REST APIগুলিও cURL কমান্ডের মাধ্যমে অ্যাক্সেস করা যেতে পারে এবং যেহেতু আমাদের ক্লাউড APIগুলি REST আর্কিটেকচারের উপর ভিত্তি করে, তাই আমরা অনলাইনে PDF OCR সম্পাদন করতে cURL কমান্ড ব্যবহার করতে পারি। যাইহোক, রূপান্তর ক্রিয়াকলাপের সাথে এগিয়ে যাওয়ার আগে, Aspose.Cloud ড্যাশবোর্ডে নির্দিষ্ট করা আপনার স্বতন্ত্র ক্লায়েন্ট শংসাপত্রের উপর ভিত্তি করে আমাদের একটি JSON ওয়েব টোকেন (JWT) তৈরি করতে হবে। এটা বাধ্যতামূলক কারণ আমাদের API শুধুমাত্র নিবন্ধিত ব্যবহারকারীদের জন্য অ্যাক্সেসযোগ্য। JWT টোকেন তৈরি করতে অনুগ্রহ করে নিম্নলিখিত কমান্ডটি চালান।

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=88d1cda8-b12c-4a80-b1ad-c85ac483c5c5&client_secret=406b404b2df649611e508bbcfcd2a77f" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

একবার আমাদের কাছে JWT টোকেন হয়ে গেলে, অনুগ্রহ করে OCR অপারেশন সম্পাদন করতে এবং একই ক্লাউড স্টোরেজে আউটপুট সংরক্ষণ করতে নিম্নলিখিত কমান্ডটি চালান।

curl -v -X PUT "https://api.aspose.cloud/v3.0/pdf/image-based-pdf-sample.pdf/ocr" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>"

উপসংহার

এই নিবন্ধে, আমরা পাইথন কোড স্নিপেট ব্যবহার করে ইমেজ পিডিএফ থেকে অনুসন্ধানযোগ্য পিডিএফ করার ধাপ নিয়ে আলোচনা করেছি। CURL কমান্ডগুলি ব্যবহার করে OCR অনলাইনে কীভাবে সম্পাদন করা যায় সে সম্পর্কে আমরা বিস্তারিত অনুসন্ধান করেছি। যেহেতু আমাদের ক্লাউড SDKগুলি MIT লাইসেন্সের অধীনে তৈরি করা হয়েছে, তাই আপনি GitHub থেকে সম্পূর্ণ কোড স্নিপেট ডাউনলোড করতে পারেন এবং আপনার প্রয়োজনীয়তা অনুযায়ী আপডেট করতে পারেন। ক্লাউড API দ্বারা বর্তমানে অফার করা অন্যান্য উত্তেজনাপূর্ণ বৈশিষ্ট্যগুলি সম্পর্কে আরও জানতে আমরা আপনাকে ডেভেলপার গাইড অন্বেষণ করার জন্য অত্যন্ত সুপারিশ করছি৷

যদি আপনার কোনো সম্পর্কিত প্রশ্ন থাকে বা আমাদের API ব্যবহার করার সময় আপনি কোনো সমস্যার সম্মুখীন হন, তাহলে অনুগ্রহ করে ফ্রি কাস্টমার সাপোর্ট ফোরাম এর মাধ্যমে নির্দ্বিধায় আমাদের সাথে যোগাযোগ করুন।

সম্পরকিত প্রবন্ধ

আমরা আরও জানতে নিম্নলিখিত নিবন্ধগুলির মাধ্যমে যাওয়ার পরামর্শ দিই