पीडीएफ से टेक्स्ट निकालें

जावा में पीडीएफ से टेक्स्ट निकालें

हम सभी जानते हैं कि पीडीएफ फाइलें सबसे महत्वपूर्ण और व्यापक रूप से उपयोग किए जाने वाले डिजिटल प्रारूपों में से एक हैं, जो सॉफ्टवेयर, हार्डवेयर या ऑपरेटिंग सिस्टम से स्वतंत्र रूप से दस्तावेजों को प्रस्तुत करने और विनिमय करने के लिए उपयोग किया जाता है। हालाँकि, कुछ परिदृश्यों में, हमें बड़ी PDF फ़ाइलों से अंश प्राप्त करने में रुचि हो सकती है। या, हमें पीडीएफ को ऑनलाइन टेक्स्ट में सेव करने की आवश्यकता हो सकती है। इसलिए इस लेख में, हम जावा रेस्ट एपीआई का उपयोग करके पीडीएफ को टेक्स्ट कन्वर्टर में विकसित करने के तरीके के बारे में विवरण तलाशने जा रहे हैं।

पीडीएफ जेनरेटर एपीआई

टेम्प्लेट का उपयोग करके या हमारे REST API का उपयोग करके स्क्रैच से पीडीएफ दस्तावेज़ उत्पन्न करने का लाभ उठाएं। साथ ही, एपीआई आपको संपादित करने के साथ-साथ पीडीएफ फाइलों को अन्य समर्थित प्रारूपों में बदलने में भी सक्षम बनाता है। आप जावा क्लाउड एसडीके का उपयोग करके पीडीएफ से टेक्स्ट निकालने, डिक्रिप्ट करने और पीडीएफ फाइलों को मर्ज करने का लाभ भी ले सकते हैं। अब, जावा के लिए Aspose.PDF क्लाउड एसडीके का उपयोग करने के लिए, हमें pom.xml (मेवेन बिल्ड टाइप प्रोजेक्ट) में निम्नलिखित विवरण शामिल करके अपने जावा एप्लिकेशन में इसका संदर्भ जोड़ना होगा।

<repositories> 
    <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>http://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-cloud-pdf</artifactId>
        <version>21.11.0</version>
        <scope>compile</scope>
    </dependency>
</dependencies>

स्थापना के बाद, हमें क्लाउड डैशबोर्ड पर एक मुफ्त खाता बनाने और व्यक्तिगत ग्राहक क्रेडेंशियल्स प्राप्त करने की आवश्यकता है।

जावा का उपयोग करके पीडीएफ से टेक्स्ट निकालें

आइए जावा क्लाउड एसडीके का उपयोग करके पीडीएफ से टेक्स्ट निकालने के लिए विवरण देखें। इस उदाहरण में, हम निम्नलिखित इनपुट का उपयोग करने जा रहे हैं PdfWithTable.pdf फ़ाइल।

पीडीएफ से पाठ ओसीआर

इमेज 1:- पीडीएफ से टेक्स्ट एक्सट्रैक्शन के लिए इनपुट फाइल।

पीडीएफ से पाठ ओसीआर

इमेज 2:- पीडीएफ प्रीव्यू से टेक्स्ट एक्सट्रेक्ट करें

// अधिक उदाहरणों के लिए, कृपया देखें https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-java/tree/master/Examples/src/main/java/com/aspose/asposecloudpdf/examples

try
    {
    // https://dashboard.aspose.cloud/ से ClientID और ClientSecret प्राप्त करें
    String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
    String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
		    
    // पीडीएफएपी का एक उदाहरण बनाएं
    PdfApi pdfApi = new PdfApi(clientSecret,clientId);
    // इनपुट पीडीएफ दस्तावेज़ का नाम
    String name = "PdfWithTable.pdf";
		        
    // इनपुट पीडीएफ फाइल की सामग्री पढ़ें
    File file = new File(name); 
    // पीडीएफ को क्लाउड स्टोरेज पर अपलोड करें
    pdfApi.uploadFile("input.pdf", file, null);
		        
    // निचले - बाएँ कोने का X-निर्देशांक
    Double LLX = 500.0;
    // Y - निचले-बाएँ कोने का निर्देशांक।
    Double LLY = 500.0;
    // एक्स - ऊपरी-दाएं कोने का समन्वय।
    Double URX = 800.0;
    // Y - ऊपरी-दाएँ कोने का निर्देशांक।
    Double URY = 800.0;
			       
    // पीडीएफ को टेक्स्ट में बदलने के लिए कॉल एपीआई
    TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);    
		    
    // अलग-अलग पाठ घटना के माध्यम से पार करें
    for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
    {
        // कंसोल में टेक्स्ट सामग्री लिखें
        System.out.println(response.getTextOccurrences().getList().get(counter).getText());
    }
		  
    System.out.println("Extract Text from PDF successful !");
    }catch(Exception ex)
    {
        System.out.println(ex);
    }

अब आइए उपरोक्त निर्दिष्ट कोड स्निपेट को समझने का प्रयास करें:

PdfApi pdfApi = new PdfApi(clientSecret,clientId);

व्यक्तिगत प्रमाण-पत्रों को तर्क के रूप में पारित करते समय पीडीएफएपी का एक उदाहरण बनाएं।

File file = new File(name); 
pdfApi.uploadFile("input.pdf", file, null);

File ऑब्जेक्ट का उपयोग करके इनपुट PDF पढ़ें और इसे PdfAPi क्लास की uploadFile(…) विधि का उपयोग करके क्लाउड स्टोरेज पर अपलोड करें। कृपया ध्यान दें कि फ़ाइल को अपलोड फ़ाइल विधि में उपयोग किए गए नाम से अपलोड किया गया है।

TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);    

अब getText(..) मेथड को कॉल करें जहां हम इनपुट पीडीएफ फाइल का नाम निर्दिष्ट करते हैं, पृष्ठ पर आयताकार आयाम जिससे हमें पाठ्य सामग्री निकालने की आवश्यकता होती है और, निकाली गई सामग्री को TextRectsResponse ऑब्जेक्ट में वापस कर देते हैं।

response.getTextOccurrences().getList().get(counter).getText()

अंत में, निकाली गई टेक्स्ट सामग्री को प्रिंट करने के लिए, हम सभी टेक्स्टऑक्यूरेंस के माध्यम से पुनरावृति करेंगे और उन्हें कंसोल में प्रदर्शित करेंगे।

कर्ल कमांड का उपयोग करके पीडीएफ से टेक्स्ट

जावा कोड स्निपेट के अलावा, हम cURL कमांड का उपयोग करके pdftotext ऑपरेशन भी कर सकते हैं। अब, इस दृष्टिकोण के लिए एक शर्त निम्नलिखित कमांड का उपयोग करके JWT एक्सेस टोकन (क्लाइंट क्रेडेंशियल्स के आधार पर) उत्पन्न करना है।

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

JWT जनरेट होने के बाद, क्लाउड स्टोरेज में पहले से उपलब्ध पीडीएफ फाइल से टेक्स्ट निकालने के लिए कृपया निम्नलिखित कमांड को निष्पादित करें।

curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>"

तुरता सलाह

पीडीएफ टू टेक्स्ट फ्री ऐप की तलाश है! कृपया हमारे पीडीएफ पार्सर का उपयोग करने का प्रयास करें।

समापन टिप्पणी

अंत में, जावा का उपयोग करके पीडीएफ फाइलों से टेक्स्ट निकालना उन लोगों के लिए एक शक्तिशाली समाधान हो सकता है जो अपने डेटा प्रोसेसिंग और विश्लेषण की जरूरतों को स्वचालित करना चाहते हैं। इस गाइड की मदद से, अब आपके पास निर्माण करने के लिए एक ठोस आधार है और पीडीएफ दस्तावेज़ों से टेक्स्ट निष्कर्षण के लिए अपने स्वयं के जावा-आधारित समाधान को आसानी से लागू कर सकते हैं। चाहे आप डेटा विश्लेषण, मशीन लर्निंग, या किसी अन्य उद्देश्य के लिए पाठ निकालना चाह रहे हों, जावा आपकी आवश्यकताओं के लिए एक लचीला और विश्वसनीय मंच प्रदान करता है। तो आगे बढ़ें और अपने नए अधिग्रहीत कौशल का परीक्षण करें!

यदि आप एपीआई द्वारा पेश की जा रही अन्य रोमांचक सुविधाओं का पता लगाने में रुचि रखते हैं, तो कृपया उत्पाद दस्तावेज़ीकरण देखें। अंत में, यदि आपको एपीआई का उपयोग करते समय कोई समस्या आती है, या आपके पास कोई संबंधित प्रश्न है, तो कृपया नि: शुल्क उत्पाद समर्थन फोरम के माध्यम से हमसे संपर्क करने में संकोच न करें।

संबंधित आलेख

इसके बारे में अधिक जानने के लिए कृपया निम्नलिखित लिंक पर जाएँ: