PDF থেকে পাঠ্য বের করুন

জাভাতে PDF থেকে টেক্সট বের করুন

আমরা সকলেই জানি যে PDF ফাইলগুলি হল সবচেয়ে গুরুত্বপূর্ণ এবং বহুল ব্যবহৃত ডিজিটাল ফর্ম্যাটগুলির মধ্যে একটি যা সফ্টওয়্যার, হার্ডওয়্যার বা অপারেটিং সিস্টেম থেকে স্বাধীনভাবে নির্ভরযোগ্যভাবে নথি উপস্থাপন এবং বিনিময় করতে ব্যবহৃত হয়। যাইহোক, কিছু পরিস্থিতিতে, আমরা বড় PDF ফাইলগুলি থেকে একটি উদ্ধৃতি পেতে আগ্রহী হতে পারি। অথবা, আমাদের পিডিএফকে অনলাইনে টেক্সট সেভ করার প্রয়োজন হতে পারে। সুতরাং এই নিবন্ধে, আমরা জাভা REST API ব্যবহার করে PDF থেকে টেক্সট রূপান্তরকারী কীভাবে বিকাশ করতে পারি সে সম্পর্কে বিশদ অনুসন্ধান করতে যাচ্ছি।

পিডিএফ জেনারেটর এপিআই

আমাদের REST API ব্যবহার করে টেমপ্লেট ব্যবহার করে বা স্ক্র্যাচ থেকে PDF নথি তৈরি করতে লিভারেজ পান। একই সময়ে, API আপনাকে সম্পাদনা করার পাশাপাশি PDF ফাইলগুলিকে অন্যান্য [সমর্থিত বিন্যাসে] রূপান্তর করতে সক্ষম করে6। আপনি জাভা ক্লাউড SDK ব্যবহার করে PDF থেকে পাঠ্য নিষ্কাশন, ডিক্রিপ্ট এবং PDF ফাইল মার্জ করার সুবিধাও নিতে পারেন। এখন, Aspose.PDF ক্লাউড SDK for Java ব্যবহার করার জন্য, pom.xml (maven বিল্ড টাইপ প্রজেক্ট) এ নিম্নলিখিত বিবরণগুলি অন্তর্ভুক্ত করে আমাদের জাভা অ্যাপ্লিকেশনে এর রেফারেন্স যোগ করতে হবে।

<repositories> 
    <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>https://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-cloud-pdf</artifactId>
        <version>21.11.0</version>
        <scope>compile</scope>
    </dependency>
</dependencies>

ইনস্টলেশনের পরে, আমাদের ক্লাউড ড্যাশবোর্ড-এ একটি বিনামূল্যের অ্যাকাউন্ট তৈরি করতে হবে এবং ব্যক্তিগতকৃত ক্লায়েন্ট শংসাপত্রগুলি পেতে হবে।

জাভা ব্যবহার করে PDF থেকে পাঠ্য বের করুন

জাভা ক্লাউড এসডিকে ব্যবহার করে পিডিএফ থেকে টেক্সট এক্সট্রাক্ট করার জন্য বিস্তারিত অন্বেষণ করা যাক। এই উদাহরণে, আমরা নিম্নলিখিত ইনপুট PdfWithTable.pdf ব্যবহার করতে যাচ্ছি ফাইল

পিডিএফ টেক্সট ocr

চিত্র 1:- PDF থেকে পাঠ্য নিষ্কাশনের জন্য ইনপুট ফাইল।

পিডিএফ টেক্সট ocr

ছবি 2:- PDF প্রিভিউ থেকে টেক্সট বের করুন

// আরও উদাহরণের জন্য, অনুগ্রহ করে https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-java/tree/master/Examples/src/main/java/com/aspose/asposecloudpdf/examples দেখুন

try
    {
    // https://dashboard.aspose.cloud/ থেকে ClientID এবং ClientSecret পান
    String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
    String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
		    
    // PdfApi এর একটি উদাহরণ তৈরি করুন
    PdfApi pdfApi = new PdfApi(clientSecret,clientId);
    // ইনপুট পিডিএফ নথির নাম
    String name = "PdfWithTable.pdf";
		        
    // ইনপুট পিডিএফ ফাইলের বিষয়বস্তু পড়ুন
    File file = new File(name); 
    // ক্লাউড স্টোরেজে পিডিএফ আপলোড করুন
    pdfApi.uploadFile("input.pdf", file, null);
		        
    // নিচের - বাম কোণের X- স্থানাঙ্ক
    Double LLX = 500.0;
    // Y - নীচের-বাম কোণের স্থানাঙ্ক।
    Double LLY = 500.0;
    // X - উপরের-ডান কোণের স্থানাঙ্ক।
    Double URX = 800.0;
    // Y - উপরের-ডান কোণার স্থানাঙ্ক।
    Double URY = 800.0;
			       
    // পিডিএফকে টেক্সটে রূপান্তর করতে API কল করুন
    TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);    
		    
    // স্বতন্ত্র টেক্সট ঘটনার মাধ্যমে অতিক্রম করুন
    for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
    {
        // কনসোলে পাঠ্য বিষয়বস্তু লিখুন
        System.out.println(response.getTextOccurrences().getList().get(counter).getText());
    }
		  
    System.out.println("Extract Text from PDF successful !");
    }catch(Exception ex)
    {
        System.out.println(ex);
    }

এখন উপরের নির্দিষ্ট কোড স্নিপেট বোঝার চেষ্টা করা যাক:

PdfApi pdfApi = new PdfApi(clientSecret,clientId);

আর্গুমেন্ট হিসাবে ব্যক্তিগতকৃত শংসাপত্রগুলি পাস করার সময় PdfApi-এর একটি উদাহরণ তৈরি করুন।

File file = new File(name); 
pdfApi.uploadFile("input.pdf", file, null);

ফাইল অবজেক্ট ব্যবহার করে ইনপুট পিডিএফ পড়ুন এবং পিডিএফএপিআই ক্লাসের আপলোডফাইল(…) পদ্ধতি ব্যবহার করে ক্লাউড স্টোরেজে আপলোড করুন। অনুগ্রহ করে মনে রাখবেন ফাইলটি আপলোডফাইল পদ্ধতিতে ব্যবহৃত নামের সাথে আপলোড করা হয়েছে।

TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);    

এখন getText(..) পদ্ধতিতে কল করুন যেখানে আমরা ইনপুট পিডিএফ ফাইলের নাম, পৃষ্ঠায় আয়তক্ষেত্রাকার মাত্রা উল্লেখ করি যেখান থেকে আমাদের পাঠ্য বিষয়বস্তু এক্সট্র্যাক্ট করতে হবে এবং এক্সট্রাক্ট করা বিষয়বস্তু TextRectsResponse অবজেক্টে ফেরত দিতে হবে।

response.getTextOccurrences().getList().get(counter).getText()

অবশেষে, এক্সট্র্যাক্ট করা টেক্সট কন্টেন্ট প্রিন্ট করার জন্য, আমরা সমস্ত TextOccurances এর মাধ্যমে পুনরাবৃত্তি করতে যাচ্ছি এবং সেগুলিকে কনসোলে প্রদর্শন করব।

সিআরএল কমান্ড ব্যবহার করে পিডিএফ টু টেক্সট

জাভা কোড স্নিপেট ছাড়াও, আমরা cURL কমান্ড ব্যবহার করে pdftotext অপারেশন করতে পারি। এখন, এই পদ্ধতির একটি পূর্বশর্ত হল নিম্নলিখিত কমান্ডটি ব্যবহার করে একটি JWT অ্যাক্সেস টোকেন (ক্লায়েন্ট শংসাপত্রের উপর ভিত্তি করে) তৈরি করা।

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

JWT তৈরি হয়ে গেলে, ক্লাউড স্টোরেজে ইতিমধ্যে উপলব্ধ PDF ফাইল থেকে পাঠ্য বের করতে অনুগ্রহ করে নিম্নলিখিত কমান্ডটি চালান।

curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>"

দ্রুত নির্দেশনা

পিডিএফ টু টেক্সট ফ্রি অ্যাপ খুঁজছেন! অনুগ্রহ করে আমাদের PDF পার্সার ব্যবহার করার চেষ্টা করুন।

মন্তব্য আখেরী

উপসংহারে, জাভা ব্যবহার করে পিডিএফ ফাইলগুলি থেকে পাঠ্য নিষ্কাশন করা একটি শক্তিশালী সমাধান হতে পারে যারা তাদের ডেটা প্রক্রিয়াকরণ এবং বিশ্লেষণের প্রয়োজনগুলি স্বয়ংক্রিয় করতে চান তাদের জন্য। এই নির্দেশিকাটির সাহায্যে, আপনার কাছে এখন একটি শক্ত ভিত্তি তৈরি করা হয়েছে এবং PDF নথি থেকে পাঠ্য নিষ্কাশনের জন্য আপনার নিজস্ব জাভা-ভিত্তিক সমাধান সহজেই বাস্তবায়ন করতে পারেন। আপনি ডেটা বিশ্লেষণ, মেশিন লার্নিং বা অন্য কোনো উদ্দেশ্যে পাঠ্য বের করতে চাইছেন না কেন, জাভা আপনার প্রয়োজনের জন্য একটি নমনীয় এবং নির্ভরযোগ্য প্ল্যাটফর্ম প্রদান করে। তাই এগিয়ে যান এবং পরীক্ষায় আপনার নতুন অর্জিত দক্ষতা রাখুন!

আপনি যদি API দ্বারা অফার করা অন্যান্য উত্তেজনাপূর্ণ বৈশিষ্ট্যগুলি অন্বেষণ করতে আগ্রহী হন তবে দয়া করে [প্রোডাক্ট ডকুমেন্টেশন] অন্বেষণ করুন 11৷ পরিশেষে, যদি আপনি API ব্যবহার করার সময় কোনো সমস্যার সম্মুখীন হন, অথবা আপনার কোনো সম্পর্কিত প্রশ্ন থাকে, তাহলে অনুগ্রহ করে বিনামূল্যে প্রোডাক্ট সাপোর্ট ফোরাম এর মাধ্যমে আমাদের সাথে নির্দ্বিধায় যোগাযোগ করুন।

সম্পরকিত প্রবন্ধ

সম্পর্কে আরও জানতে অনুগ্রহ করে নিম্নলিখিত লিঙ্কগুলিতে যান: