একটি PDF ফাইল সাধারণত পাঠ্য, চিত্র, শিরোনাম, টীকা এবং অন্যান্য উপাদান নিয়ে গঠিত। এবং যেহেতু এই বিন্যাসটি প্ল্যাটফর্ম (ডেস্কটপ/মোবাইল ইত্যাদি) জুড়ে নথির বিন্যাস সংরক্ষণ করে, তাই এটি ইন্টারনেটে তথ্য ভাগ করার জন্য ব্যাপকভাবে ব্যবহৃত হয়। যাইহোক, আমাদের আরও প্রক্রিয়াকরণের জন্য PDF নথির পাঠ্য বিষয়বস্তু বের করার প্রয়োজন হতে পারে। সুতরাং এই নিবন্ধে, আমরা জাভা ক্লাউড এসডিকে ব্যবহার করে পিডিএফ থেকে কীভাবে পাঠ্য বের করতে পারি সে সম্পর্কে বিস্তারিত আলোচনা করতে যাচ্ছি। অপারেশন সম্পূর্ণ হলে, আউটপুট TXT ফরম্যাটে সংরক্ষিত হয়।
PDF থেকে TXT রূপান্তর API
[Aspose.PDF ক্লাউড SDK for Java2 হল আমাদের পুরস্কার বিজয়ী REST API সলিউশন যা PDF কে JPG, XPS, HTML, DOCX এবং অন্যান্য বিভিন্ন [সমর্থিত ফরম্যাটে12 তৈরি, সম্পাদনা এবং রূপান্তর করার ক্ষমতা প্রদান করে। এখন জাভা অ্যাপ্লিকেশানে পিডিএফ টেক্সট শনাক্তকরণ ক্ষমতা বাস্তবায়নের জন্য, অনুগ্রহ করে maven বিল্ড টাইপ প্রকল্পের pom.xml-এ নিম্নলিখিত বিবরণ যোগ করুন।
<repositories>
<repository>
<id>aspose-cloud</id>
<name>artifact.aspose-cloud-releases</name>
<url>http://artifact.aspose.cloud/repo</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf-cloud</artifactId>
<version>21.11.0</version>
</dependency>
</dependencies>
SDK ইনস্টলেশনের পরে, পরবর্তী গুরুত্বপূর্ণ ধাপ হল [Aspose Cloud]-এর উপর একটি বিনামূল্যের অ্যাকাউন্ট তৈরি করা 4৷ তাই অনুগ্রহ করে নতুন তৈরি করা অ্যাকাউন্ট ব্যবহার করে লগইন করুন এবং [ক্লাউড ড্যাশবোর্ড] এ ক্লায়েন্ট আইডি এবং ক্লায়েন্ট সিক্রেট দেখুন/তৈরি করুন। এই বিবরণ পরবর্তী বিভাগে প্রয়োজন.
জাভাতে পিডিএফ টু টেক্সট
Java ক্লাউড SDK ব্যবহার করে PDF থেকে টেক্সট রূপান্তর করতে নিচের ধাপগুলি অনুসরণ করুন। তাই সফল রূপান্তর করার পরে, ফলস্বরূপ TXT ফাইলটি ক্লাউড স্টোরেজে সংরক্ষিত হয়।
- আর্গুমেন্ট হিসাবে ক্লায়েন্টআইডি এবং ক্লায়েন্ট সিক্রেট প্রদান করার সময় প্রথমে আমাদের একটি PdfApi অবজেক্ট তৈরি করতে হবে
- দ্বিতীয়ত, ফাইল ইনস্ট্যান্স ব্যবহার করে ইনপুট পিডিএফ ফাইল লোড করুন
- আপলোডফাইল(…) পদ্ধতি ব্যবহার করে ক্লাউড স্টোরেজে ইনপুট পিডিএফ আপলোড করুন
- টেক্সট এক্সট্রাকশনের জন্য পিডিএফের পৃষ্ঠা নম্বর উল্লেখ করে ইন্টিজার ভেরিয়েবল তৈরি করুন এবং পৃষ্ঠার আয়তক্ষেত্রাকার অঞ্চল নির্দেশ করে যেখান থেকে আমাদের পাঠ্য বিষয়বস্তু বের করতে হবে
- ইনপুট PDF থেকে পাঠ্য বিষয়বস্তু আনার জন্য অবশেষে getPageText(…) পদ্ধতিতে কল করুন
try
{
// https://dashboard.aspose.cloud/ থেকে ClientID এবং ClientSecret পান
String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
// PdfApi এর একটি উদাহরণ তৈরি করুন
PdfApi pdfApi = new PdfApi(clientSecret,clientId);
// ইনপুট পিডিএফ নথির নাম
String inputFile = "marketing.pdf";
// ইনপুট পিডিএফ ফাইলের বিষয়বস্তু পড়ুন
File file = new File("//Users//"+inputFile);
// ক্লাউড স্টোরেজে পিডিএফ আপলোড করুন
pdfApi.uploadFile("input.pdf", file, null);
// রূপান্তরের জন্য পিডিএফের নির্দিষ্ট পৃষ্ঠা
int pageNumber =1;
// নিচের - বাম কোণের X- স্থানাঙ্ক
Double LLX = 0.0;
// Y - নীচের-বাম কোণের স্থানাঙ্ক।
Double LLY = 0.0;
// X - উপরের-ডান কোণের স্থানাঙ্ক।
Double URX = 800.0;
// Y - উপরের-ডান কোণার স্থানাঙ্ক।
Double URY = 800.0;
// পিডিএফকে টেক্সটে রূপান্তর করতে API কল করুন
TextRectsResponse response = pdfApi.getPageText(inputFile, pageNumber, LLX, LLY, URX, URY, null, null, true, null, "default");
// ফলে TXT ফাইলের উদাহরণ
FileWriter myWriter = new FileWriter("filename.txt");
// এখন স্বতন্ত্র টেক্সট অক্যুরেন্সের মধ্য দিয়ে যান কনসোলে প্রিন্ট ফলাফল পান
for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
{
// TXT ফাইলে পাঠ্য বিষয়বস্তু লিখুন
myWriter.write(response.getTextOccurrences().getList().get(counter).getText());
}
// TXT হ্যান্ডলার বন্ধ করুন
myWriter.close();
System.out.println("Text successfully extracted from PDF !");
}catch(Exception ex)
{
System.out.println(ex);
}
উপরের উদাহরণে ব্যবহৃত নমুনা PDF ফাইলটি marketing.pdf এবং extracted.txt থেকে ডাউনলোড করা যেতে পারে
CURL কমান্ড ব্যবহার করে PDF থেকে পাঠ্য বের করুন
REST API গুলি সহজেই cURL কমান্ডের মাধ্যমে অ্যাক্সেস করা যেতে পারে, তাই এই বিভাগে, আমরা কীভাবে cURL কমান্ড ব্যবহার করে PDF থেকে পাঠ্য বিষয়বস্তু বের করতে পারি তার বিকল্পটি অন্বেষণ করতে যাচ্ছি। তাই একটি পূর্ব-প্রয়োজনীয় হিসাবে, নিম্নলিখিত কমান্ডটি কার্যকর করার সময় আমাদের প্রথমে একটি JWT অ্যাক্সেস টোকেন (ক্লায়েন্ট শংসাপত্রের উপর ভিত্তি করে) তৈরি করতে হবে।
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
একবার আমাদের কাছে JWT টোকেন হয়ে গেলে, পিডিএফ ডকুমেন্টের মধ্যে সমস্ত পাঠ্য সংঘটনগুলি বের করতে আমাদের নিম্নলিখিত কমান্ডটি কার্যকর করতে হবে।
curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H "accept: application/json" \
-H "authorization: Bearer <JWT Token>"
উপসংহার
এই নিবন্ধটি কীভাবে জাভা ক্লাউড SDK ব্যবহার করে PDF-কে TXT-এ রূপান্তর করতে হয় তার বিশদ ব্যাখ্যা করেছে৷ একই সময়ে, আমরা cURL কমান্ড ব্যবহার করে PDF থেকে পাঠ্য বের করার বিকল্পগুলিও অন্বেষণ করেছি। তাই একাধিক পিডিএফ পৃষ্ঠার মধ্যে ট্রাভার্স করার নমনীয়তার সাথে, আমরা কন্টেন্টটি কোথায় বের করতে পারি তার উপর একটি নিয়ন্ত্রণ পাই। জাভা ক্লাউড API দ্বারা অফার করা অন্যান্য উত্তেজনাপূর্ণ বৈশিষ্ট্যগুলি সম্পর্কে আরও জানতে আমরা আপনাকে পণ্যটি ডকুমেন্টেশন অন্বেষণ করার জন্য অত্যন্ত সুপারিশ করছি৷ এছাড়াও, যেহেতু আমাদের সমস্ত ক্লাউড SDK গুলি MIT লাইসেন্সের অধীনে প্রকাশিত হয়েছে, তাই আপনি GitHub থেকে সম্পূর্ণ সোর্স কোড ডাউনলোড করার কথা বিবেচনা করতে পারেন এবং আপনার প্রয়োজনীয়তা অনুযায়ী এটি পরিবর্তন করতে পারেন৷ কোনো সমস্যার ক্ষেত্রে, আপনি বিনামূল্যে প্রোডাক্ট সাপোর্ট ফোরাম এর মাধ্যমে দ্রুত সমাধানের জন্য আমাদের সাথে যোগাযোগ করতে পারেন।
সম্পরকিত প্রবন্ধ
সম্পর্কে আরও জানতে অনুগ্রহ করে নিম্নলিখিত লিঙ্কগুলিতে যান: