पीडीएफ से TXT कन्वर्टर

Java का उपयोग करके PDF को TXT में कैसे बदलें

एक पीडीएफ फ़ाइल में आमतौर पर पाठ, छवि, शीर्षक, एनोटेशन और अन्य तत्व शामिल होते हैं। और चूंकि यह प्रारूप प्लेटफॉर्म (डेस्कटॉप/मोबाइल इत्यादि) में दस्तावेज़ लेआउट को संरक्षित करता है, इसलिए इसका व्यापक रूप से इंटरनेट पर जानकारी साझा करने के लिए उपयोग किया जाता है। हालाँकि, हमें आगे की प्रक्रिया के लिए पीडीएफ दस्तावेज़ की पाठ्य सामग्री निकालने की आवश्यकता हो सकती है। इसलिए इस लेख में, हम जावा क्लाउड एसडीके का उपयोग करके पीडीएफ से टेक्स्ट निकालने के तरीके के विवरण पर चर्चा करने जा रहे हैं। एक बार ऑपरेशन पूरा हो जाने के बाद, आउटपुट TXT प्रारूप में सहेजा जाता है।

पीडीएफ से TXT रूपांतरण एपीआई

जावा के लिए Aspose.PDF क्लाउड SDK हमारा पुरस्कार विजेता REST API समाधान है जो PDF को JPG, XPS, HTML, DOCX और अन्य समर्थित स्वरूप में बनाने, संपादित करने और परिवर्तित करने की क्षमता प्रदान करता है। अब जावा एप्लिकेशन में पीडीएफ पाठ पहचान क्षमताओं को लागू करने के लिए, कृपया मावेन बिल्ड टाइप प्रोजेक्ट के pom.xml में निम्नलिखित विवरण जोड़ें।

<repositories> 
    <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>http://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-pdf-cloud</artifactId>
        <version>21.11.0</version>
    </dependency>
</dependencies>

एसडीके इंस्टालेशन के बाद, अगला महत्वपूर्ण कदम एस्पोज क्लाउड पर एक मुफ्त खाते का निर्माण है। इसलिए कृपया नए बनाए गए खाते का उपयोग करके लॉगिन करें और क्लाउड डैशबोर्ड पर क्लाइंट आईडी और क्लाइंट सीक्रेट देखें/बनाएं। ये विवरण बाद के खंडों में आवश्यक हैं।

जावा में पीडीएफ से टेक्स्ट

जावा क्लाउड एसडीके का उपयोग करके पीडीएफ को टेक्स्ट रूपांतरण करने के लिए कृपया नीचे दिए गए चरणों का पालन करें। इसलिए सफल रूपांतरण के बाद, परिणामी TXT फाइल क्लाउड स्टोरेज में सेव हो जाती है।

  • क्लाइंट आईडी और क्लाइंट सीक्रेट को तर्क के रूप में प्रदान करते हुए पहले हमें एक PdfApi ऑब्जेक्ट बनाने की आवश्यकता है
  • दूसरे, File उदाहरण का उपयोग करके इनपुट पीडीएफ फाइल को लोड करें
  • अपलोडफाइल (…) विधि का उपयोग करके इनपुट पीडीएफ को क्लाउड स्टोरेज पर अपलोड करें
  • पाठ निष्कर्षण के लिए पीडीएफ की पृष्ठ संख्या निर्दिष्ट करने वाला पूर्णांक चर बनाएं और पृष्ठ के आयताकार क्षेत्र को इंगित करने वाले दोहरे उदाहरण जिससे हमें पाठ्य सामग्री निकालने की आवश्यकता है
  • अंत में इनपुट पीडीएफ से पाठ्य सामग्री लाने के लिए getPageText(…) विधि को कॉल करें
try
    {
    // https://dashboard.aspose.cloud/ से ClientID और ClientSecret प्राप्त करें
    String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
    String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
	  
    // पीडीएफएपी का एक उदाहरण बनाएं
    PdfApi pdfApi = new PdfApi(clientSecret,clientId);

    // इनपुट पीडीएफ दस्तावेज़ का नाम
    String inputFile = "marketing.pdf";

    // इनपुट पीडीएफ फाइल की सामग्री पढ़ें
    File file = new File("//Users//"+inputFile);
	    
    // पीडीएफ को क्लाउड स्टोरेज पर अपलोड करें
    pdfApi.uploadFile("input.pdf", file, null);

    // रूपांतरण के लिए पीडीएफ का विशिष्ट पृष्ठ
    int pageNumber =1;

    // निचले - बाएँ कोने का X-निर्देशांक
    Double LLX = 0.0;
    // Y - निचले-बाएँ कोने का निर्देशांक।
    Double LLY = 0.0;
    // एक्स - ऊपरी-दाएं कोने का समन्वय।
    Double URX = 800.0;
    // Y - ऊपरी-दाएँ कोने का निर्देशांक।
    Double URY = 800.0;
	       
    // पीडीएफ को टेक्स्ट में बदलने के लिए कॉल एपीआई
    TextRectsResponse response = pdfApi.getPageText(inputFile, pageNumber, LLX, LLY, URX, URY, null, null, true, null, "default");	    
    
    // परिणामी TXT फ़ाइल उदाहरण
    FileWriter myWriter = new FileWriter("filename.txt");
  
    // अब अलग-अलग पाठ घटना के माध्यम से कंसोल में प्रिंट परिणाम प्राप्त करें
    for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
    {
        // TXT फ़ाइल में टेक्स्ट सामग्री लिखें
	myWriter.write(response.getTextOccurrences().getList().get(counter).getText());
    }
  
    // TXT हैंडलर बंद करें
    myWriter.close();
    
    System.out.println("Text successfully extracted from PDF !");
    }catch(Exception ex)
    {
	      System.out.println(ex);
    }
पीडीएफ को टीएक्सटी में कनवर्ट करें

Image1:- पीडीएफ से TXT रूपांतरण पूर्वावलोकन

उपरोक्त उदाहरण में उपयोग की गई नमूना PDF फ़ाइल marketing.pdf और extracted.txt से डाउनलोड की जा सकती है

cURL कमांड्स का उपयोग करके PDF से टेक्स्ट एक्सट्रेक्ट करें

Th REST API को cURL कमांड के माध्यम से आसानी से एक्सेस किया जा सकता है, इसलिए इस सेक्शन में, हम इस विकल्प का पता लगाने जा रहे हैं कि कैसे हम cURL कमांड का उपयोग करके पीडीएफ से टेक्स्ट सामग्री निकाल सकते हैं। तो एक पूर्व-आवश्यकता के रूप में, हमें पहले निम्न आदेश निष्पादित करते समय एक जेडब्ल्यूटी एक्सेस टोकन (क्लाइंट प्रमाण-पत्रों के आधार पर) उत्पन्न करने की आवश्यकता है।

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

एक बार हमारे पास जेडब्ल्यूटी टोकन हो जाने के बाद, हमें पीडीएफ दस्तावेज़ के भीतर सभी पाठ घटनाओं को निकालने के लिए निम्न आदेश निष्पादित करने की आवश्यकता है।

curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>"

निष्कर्ष

इस आलेख ने जावा क्लाउड एसडीके का उपयोग करके पीडीएफ को टीXT में परिवर्तित करने के तरीके के विवरण की व्याख्या की है। साथ ही, हमने कर्ल कमांड का उपयोग करके पीडीएफ से टेक्स्ट निकालने के विकल्पों का भी पता लगाया है। इसलिए कई पीडीएफ पेजों के बीच ट्रैवर्सिंग के लचीलेपन के साथ, हमें यह नियंत्रण मिलता है कि सामग्री को कहां निकालना है। जावा क्लाउड एपीआई द्वारा पेश की जा रही अन्य रोमांचक सुविधाओं के बारे में और जानने के लिए हम आपको उत्पाद दस्तावेज़ का पता लगाने की अत्यधिक सलाह देते हैं। इसके अलावा, जैसा कि हमारे सभी क्लाउड एसडीके एमआईटी लाइसेंस के तहत प्रकाशित होते हैं, इसलिए आप GitHub से पूरा स्रोत कोड डाउनलोड करने और इसे अपनी आवश्यकताओं के अनुसार संशोधित करने पर विचार कर सकते हैं। किसी भी समस्या के मामले में, आप मुफ्त प्रोडक्ट सपोर्ट फोरम के माध्यम से त्वरित समाधान के लिए हमसे संपर्क करने पर विचार कर सकते हैं।

संबंधित आलेख

इसके बारे में अधिक जानने के लिए कृपया निम्नलिखित लिंक पर जाएँ: