পিডিএফ টেক্সট বের করুন

.NET REST API ব্যবহার করে PDF থেকে পাঠ্য বের করুন।

PDF দস্তাবেজগুলি বিভিন্ন প্ল্যাটফর্ম এবং ডিভাইস জুড়ে তথ্য আদান-প্রদান এবং আদান-প্রদানের জন্য আদর্শ হয়ে উঠেছে। যদিও পিডিএফগুলি একটি সুরক্ষিত এবং সামঞ্জস্যপূর্ণ বিন্যাস অফার করে, এই নথিগুলি থেকে প্রয়োজনীয় ডেটা বের করা একটি কঠিন কাজ হতে পারে, বিশেষ করে যখন প্রচুর পরিমাণে তথ্য নিয়ে কাজ করা হয়। বিশ্লেষণ, ডেটা এন্ট্রি, বা বিষয়বস্তু ম্যানিপুলেশনের জন্য আপনাকে পাঠ্য বের করতে হবে কিনা, একটি নির্ভরযোগ্য এবং দক্ষ পাঠ্য নিষ্কাশন সমাধান অত্যন্ত গুরুত্বপূর্ণ। এই নিবন্ধে, আমরা শক্তিশালী Aspose.PDF ক্লাউড SDK দ্বারা চালিত .NET REST API ব্যবহার করে PDF ফাইলগুলি থেকে পাঠ্য আহরণের জগতের সন্ধান করি৷

পিডিএফ প্রক্রিয়াকরণের জন্য REST API

Aspose.PDF Cloud SDK for .NET হল একটি শক্তিশালী এবং ব্যবহারকারী-বান্ধব API যা PDF থেকে পাঠ্য নিষ্কাশনকে সহজ করে। .NET-এর জন্য Aspose.PDF ক্লাউড SDK-এর স্ট্যান্ডআউট বৈশিষ্ট্যগুলির মধ্যে একটি হল জটিল PDF স্ট্রাকচারগুলি পরিচালনা করার এবং বিভিন্ন লেআউট সহ নথি থেকে সঠিকভাবে পাঠ্য বের করার ক্ষমতা। পিডিএফ-এ পাঠ্য, ছবি, টেবিল বা অন্যান্য জটিল উপাদান থাকুক না কেন, API বুদ্ধিমত্তার সাথে নথিতে নেভিগেট করতে পারে এবং স্পষ্টতার সাথে পাঠ্য সামগ্রী পুনরুদ্ধার করতে পারে। অতএব, শক্তিশালী বৈশিষ্ট্য, নির্ভুলতা, এবং একীকরণের সহজতা তাদের .NET অ্যাপ্লিকেশনের মধ্যে PDF নথি থেকে মূল্যবান পাঠ্য ডেটা বের করার জন্য একটি আদর্শ পছন্দ করে তোলে।

এখন, এই বৈশিষ্ট্যটি দিয়ে শুরু করার জন্য, প্রথম ধাপ হল আমাদের .NET সমাধানে Cloud SDK-এর রেফারেন্স যোগ করা। সুতরাং, NuGet প্যাকেজ ম্যানেজারে Aspose.PDF-Cloud অনুসন্ধান করুন এবং প্যাকেজ যোগ করুন বোতামে ক্লিক করুন। দ্বিতীয়ত, ক্লাউড ড্যাশবোর্ড এ যান এবং আপনার ব্যক্তিগতকৃত ক্লায়েন্ট শংসাপত্রগুলি পান।

C# .NET ব্যবহার করে PDF টেক্সট বের করুন

এই বিভাগে, আমরা পিডিএফ থেকে প্রোগ্রামগতভাবে পাঠ্য বের করার জন্য বিস্তারিত অন্বেষণ করতে যাচ্ছি।

// সম্পূর্ণ উদাহরণ এবং ডেটা ফাইলের জন্য, অনুগ্রহ করে এখানে যান 
https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-dotnet

// https://dashboard.aspose.cloud/ থেকে ক্লায়েন্ট শংসাপত্র পান
string clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
string clientID = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";

// PdfApi এর একটি উদাহরণ তৈরি করুন
PdfApi pdfApi = new PdfApi(clientSecret, clientID);

// পিডিএফ ফাইলের নাম ইনপুট করুন
String inputFile = "Binder1-1.pdf";
// স্ট্রীম উদাহরণে PDF ফাইলের বিষয়বস্তু পড়ুন
var sourceFile = System.IO.File.OpenRead(inputFile);

// ক্লাউড স্টোরেজে পিডিএফ ফাইল আপলোড করুন
pdfApi.UploadFile("inputPDF.pdf", sourceFile);

// নীচের - বাম কোণের X- স্থানাঙ্ক
Double LLX = 500.0;
// Y - নীচের-বাম কোণের স্থানাঙ্ক।
Double LLY = 500.0;
// X - উপরের-ডান কোণের স্থানাঙ্ক।
Double URX = 800.0;
// Y - উপরের-ডান কোণার স্থানাঙ্ক।
Double URY = 800.0;

// PDF নথিতে নির্দিষ্ট স্থানাঙ্ক থেকে পাঠ্য বের করতে API-কে কল করুন
TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);

// স্বতন্ত্র টেক্সট ঘটনার মাধ্যমে অতিক্রম করুন
for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
    // কনসোলে পাঠ্য বিষয়বস্তু লিখুন
    Console.WriteLine(response.TextOccurrences.List[counter].Text);
}
পিডিএফ পাঠ্য বের করুন

PDF নথি থেকে টানা পাঠ্যের পূর্বরূপ।

উপরে বর্ণিত কোড স্নিপেট সম্পর্কিত বিশদ নীচে দেওয়া হয়েছে।

PdfApi pdfApi = new PdfApi(clientSecret, clientID);

প্রথমত, PdfApi ক্লাসের একটি উদাহরণ তৈরি করুন যেখানে আমরা আর্গুমেন্ট হিসাবে ক্লায়েন্ট শংসাপত্রগুলি পাস করি।

String inputFile = "Binder1-1.pdf";
var sourceFile = System.IO.File.OpenRead(inputFile);

ইনস্ট্যান্স স্ট্রিম করতে ইনপুট পিডিএফ ফাইলের বিষয়বস্তু লোড করুন।

pdfApi.UploadFile("inputPDF.pdf", sourceFile);

ক্লাউড স্টোরেজে পিডিএফ ডকুমেন্ট আপলোড করুন।

TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);

নির্দিষ্ট পৃষ্ঠা স্থানাঙ্কে PDF ফাইল থেকে পাঠ্য বের করতে API-কে কল করুন।

for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
    // write text content in console
    Console.WriteLine(response.TextOccurrences.List[counter].Text);
}

এক্সট্রাক্ট করা টেক্সট সংঘটন ধারণকারী তালিকার মাধ্যমে পুনরাবৃত্তি করুন এবং কনসোলে টেক্সট দৃষ্টান্ত মুদ্রণ করুন।

CURL কমান্ড ব্যবহার করে PDF থেকে পাঠ্য পার্স করুন

Aspose.PDF ক্লাউড এপিআই-এর সংমিশ্রণে cURL কমান্ড ব্যবহার করে, আপনি অনায়াসে ক্লাউড স্টোরেজে হোস্ট করা PDF ফাইলগুলি থেকে পাঠ্য সামগ্রী বের করতে পারেন। API নিষ্কাশন প্রক্রিয়া কাস্টমাইজ করার জন্য বিভিন্ন পরামিতি সমর্থন করে, আপনাকে স্থানাঙ্ক নির্দিষ্ট করতে দেয়, এবং স্পষ্টতা সহ পাঠ্য বের করার জন্য অন্যান্য বিকল্পগুলি।

এই পদ্ধতির সাথে প্রথম ধাপ হল নিম্নলিখিত কমান্ডটি চালানোর সময় একটি JWT অ্যাক্সেস টোকেন তৈরি করা।

curl -v "https://api.aspose.cloud/connect/token" \
 -X POST \
 -d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
 -H "Content-Type: application/x-www-form-urlencoded" \
 -H "Accept: application/json"

জেডব্লিউটি টোকেন তৈরি হয়ে গেলে, পিডিএফ ডকুমেন্ট থেকে টেক্সট টানতে নিচের কমান্ডটি চালান।

curl -v "https://api.aspose.cloud/v3.0/pdf/{inputPDF}/text?splitRects=true&LLX=10&LLY=10&URX=800&URY=800" \
-X GET \
-H  "accept: application/json" \
-H  "authorization: Bearer {accessToken}" \
-o "extractedContent.txt"

ক্লাউড স্টোরেজে ইতিমধ্যে উপলব্ধ পিডিএফ ডকুমেন্টের নাম দিয়ে ইনপুটপিডিএফ এবং উপরে জেনারেট করা JWT টোকেন দিয়ে অ্যাক্সেস টোকেন প্রতিস্থাপন করুন।

উপসংহার

উপসংহারে, .NET-এর জন্য Aspose.PDF Cloud SDK এবং cURL কমান্ড পদ্ধতি উভয়ই PDF নথি থেকে পাঠ্য বের করার জন্য দক্ষ এবং নির্ভরযোগ্য সমাধান অফার করে। .NET-এর জন্য Aspose.PDF ক্লাউড SDK বিস্তৃত বৈশিষ্ট্য সহ একটি ব্যাপক এবং বিকাশকারী-বান্ধব API প্রদান করে, এটিকে .NET অ্যাপ্লিকেশনগুলিতে PDF পাঠ্য নিষ্কাশনকে একীভূত করার জন্য একটি শক্তিশালী পছন্দ করে তোলে৷ অন্যদিকে, cURL কমান্ড অ্যাপ্রোচ Aspose.PDF ক্লাউড এপিআই-এর সাথে ইন্টারঅ্যাক্ট করার জন্য একটি নমনীয় এবং প্ল্যাটফর্ম-স্বাধীন পদ্ধতি অফার করে, এটি বিভিন্ন পরিবেশে এবং প্রোগ্রামিং ভাষায় কাজ করা বিকাশকারীদের জন্য একটি চমৎকার বিকল্প হিসেবে তৈরি করে।

উপকারী সংজুক

সম্পরকিত প্রবন্ধ

আমরা অত্যন্ত নিম্নোক্ত ব্লগ পরিদর্শন সুপারিশ: