पीडीएफ से पाठ निकालल जाला

जावा में पीडीएफ से टेक्स्ट निकालल जाला

हमनी के सभे जानत बानी जा कि PDF फाइल सभसे महत्व वाला आ व्यापक रूप से इस्तेमाल होखे वाला डिजिटल फॉर्मेट सभ में से एक हवे जेकर इस्तेमाल सॉफ्टवेयर, हार्डवेयर भा ऑपरेटिंग सिस्टम से स्वतंत्र रूप से दस्तावेज सभ के बिस्वास जोग तरीका से प्रस्तुत करे आ आदान-प्रदान करे खातिर कइल जाला। हालांकि कुछ परिदृश्य में हमनी के बड़हन पीडीएफ फाइल के अंश लेबे में रुचि हो सकेला. या, हमनी के पीडीएफ के ऑनलाइन टेक्स्ट में सेव करे के आवश्यकता हो सकेला। त एह लेख में हमनी के जावा REST एपीआई के इस्तेमाल से पीडीएफ से टेक्स्ट कन्वर्टर कइसे विकसित कइल जा सकेला एह बारे में विस्तार से खोजे जा रहल बानी जा।

पीडीएफ जनरेटर एपीआई के बा

टेम्पलेट के इस्तेमाल से भा हमनी के REST एपीआई के इस्तेमाल से खरोंच से पीडीएफ दस्तावेज बनावे के लीवरेज पाईं. एकरे साथ ही, एपीआई रउआँ के संपादन करे के साथे-साथ पीडीएफ फाइल सभ के अन्य समर्थित फॉर्मेट में बदले में भी सक्षम बनावे ला। रउआँ पीडीएफ से टेक्स्ट निकाले, जावा क्लाउड एसडीके के इस्तेमाल से पीडीएफ फाइल के डिक्रिप्ट आ मर्ज करे के फायदा भी ले सकत बानी। अब जावा खातिर Aspose.PDF Cloud SDK के इस्तेमाल करे खातिर, हमनी के pom.xml (maven build type project) में निम्नलिखित विवरण के शामिल क के अपना जावा एप्लीकेशन में एकर संदर्भ जोड़ल जरूरी बा।

<repositories> 
    <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>http://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-cloud-pdf</artifactId>
        <version>21.11.0</version>
        <scope>compile</scope>
    </dependency>
</dependencies>

इंस्टॉलेशन के बाद, हमनी के क्लाउड डैशबोर्ड पर एगो मुफ्त खाता बनावे के होई आ पर्सनलाइज्ड क्लाइंट क्रेडेंशियल हासिल करे के पड़ी।

जावा के इस्तेमाल से पीडीएफ से टेक्स्ट निकालल जाला

आईं जावा क्लाउड एसडीके के इस्तेमाल से पीडीएफ से टेक्स्ट निकाले खातिर विवरण के खोज कइल जाव. एह उदाहरण में हमनी के निम्नलिखित इनपुट PdfWithTable.pdf के इस्तेमाल करे जा रहल बानी जा। फाइल.

पीडीएफ से टेक्स्ट ocr के बा

छवि 1:- पीडीएफ से टेक्स्ट निकाले खातिर इनपुट फाइल।

पीडीएफ से टेक्स्ट ocr के बा

छवि 2:- पीडीएफ पूर्वावलोकन से पाठ निकालल जाला

// अउरी उदाहरण खातिर, कृपया https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-java/tree/master/Examples/src/main/java/com/aspose/asposecloudpdf/examples पर जाईं

try
    {
    // https://dashboard.aspose.cloud/ से क्लाइंटआईडी आ क्लाइंटसीक्रेट प्राप्त करीं।
    String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
    String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
		    
    // PdfApi के एगो इंस्टेंस बनाईं
    PdfApi pdfApi = new PdfApi(clientSecret,clientId);
    // इनपुट पीडीएफ दस्तावेज के नाम बा
    String name = "PdfWithTable.pdf";
		        
    // इनपुट पीडीएफ फाइल के सामग्री पढ़ीं
    File file = new File(name); 
    // क्लाउड स्टोरेज में पीडीएफ अपलोड करीं
    pdfApi.uploadFile("input.pdf", file, null);
		        
    // निचला - बाएं कोने के एक्स-निर्देशांक
    Double LLX = 500.0;
    // वाई - निचला-बाएं कोने के निर्देशांक।
    Double LLY = 500.0;
    // एक्स - ऊपरी-दाएं कोने के निर्देशांक।
    Double URX = 800.0;
    // वाई - ऊपरी-दाएं कोने के निर्देशांक।
    Double URY = 800.0;
			       
    // पीडीएफ के टेक्स्ट में बदले खातिर एपीआई के कॉल करीं
    TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);    
		    
    // व्यक्तिगत पाठ घटना के माध्यम से ट्रैवर्स करीं
    for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
    {
        // कंसोल में टेक्स्ट सामग्री लिखे के बा
        System.out.println(response.getTextOccurrences().getList().get(counter).getText());
    }
		  
    System.out.println("Extract Text from PDF successful !");
    }catch(Exception ex)
    {
        System.out.println(ex);
    }

अब ऊपर निर्दिष्ट कोड स्निपेट के समझे के कोशिश कइल जाव:

PdfApi pdfApi = new PdfApi(clientSecret,clientId);

पर्सनलाइज्ड क्रेडेंशियल के आर्गुमेंट के रूप में पास करत समय PdfApi के इंस्टेंस बनाईं।

File file = new File(name); 
pdfApi.uploadFile("input.pdf", file, null);

File ऑब्जेक्ट के इस्तेमाल से इनपुट पीडीएफ पढ़ीं आ PdfAPi क्लास के uploadFile(…) मेथड के इस्तेमाल से क्लाउड स्टोरेज में अपलोड करीं। कृपया ध्यान दीं कि फाइल अपलोडफाइल तरीका में इस्तेमाल कइल गइल नाँव के साथ अपलोड कइल गइल बा।

TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);    

अब getText(..) मेथड के कॉल करीं जहाँ हमनी के इनपुट पीडीएफ फाइल के नाम, पन्ना पर आयताकार आयाम निर्दिष्ट करीं जा जवना से हमनी के टेक्स्टुअल कंटेंट निकाले के पड़ी आ, निकालल सामग्री के TextRectsResponse ऑब्जेक्ट में वापस कर दीं.

response.getTextOccurrences().getList().get(counter).getText()

अंत में, निकालल गइल टेक्स्ट सामग्री के प्रिंट करे खातिर हमनी के सभ TextOccurances के माध्यम से इटरेट करे जा रहल बानी जा आ कंसोल में प्रदर्शित करे जा रहल बानी जा।

cURL कमांड के इस्तेमाल से पीडीएफ से टेक्स्ट

जावा कोड स्निपेट के अलावा हमनी के cURL कमांड के इस्तेमाल से pdftotext ऑपरेशन भी कर सकेनी जा। अब एह तरीका खातिर एगो शर्त ई बा कि निम्नलिखित कमांड के इस्तेमाल से जेडब्ल्यूटी एक्सेस टोकन (क्लाइंट क्रेडेंशियल के आधार पर) जनरेट कइल जाय।

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

एक बेर जेडब्ल्यूटी जनरेट हो गइला के बाद, कृपया क्लाउड स्टोरेज में पहिले से उपलब्ध पीडीएफ फाइल से टेक्स्ट निकाले खातिर निम्नलिखित कमांड के निष्पादित करीं।

curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>"

त्वरित टिप के बा

पीडीएफ से टेक्स्ट फ्री ऐप के तलाश में बानी ! कृपया हमनी के PDF Parser के इस्तेमाल करे के कोशिश करीं।

समापन टिप्पणी दिहल गइल बा

निष्कर्ष में कहल जा सकेला कि जावा के इस्तेमाल से पीडीएफ फाइल से टेक्स्ट निकालल ओह लोग खातिर एगो शक्तिशाली समाधान हो सकेला जे अपना डेटा प्रोसेसिंग आ एनालिसिस के जरूरत के स्वचालित करे के चाहत बा. एह गाइड के मदद से अब रउरा लगे एगो ठोस आधार बा जवना पर रउरा निर्माण कर सकीलें आ पीडीएफ दस्तावेजन से पाठ निकाले खातिर आपन जावा आधारित समाधान आसानी से लागू कर सकीलें. चाहे रउआँ डेटा एनालिसिस, मशीन लर्निंग, भा कवनो अउरी मकसद खातिर टेक्स्ट निकाले के चाहत होखीं, जावा रउआँ के जरूरत खातिर एगो लचीला आ बिस्वास जोग प्लेटफार्म उपलब्ध करावे ला। त आगे बढ़ीं आ अपना नया अर्जित हुनर के परीक्षण में डालीं!

अगर रउआँ एपीआई द्वारा पेश कइल जा रहल अउरी रोमांचक फीचर सभ के खोज करे के इच्छुक बानी, कृपया उत्पाद दस्तावेजीकरण के खोज करीं। अंत में, अगर एपीआई के इस्तेमाल करत घरी रउआँ के कवनो समस्या के सामना करे के पड़े, या रउआँ के कवनो संबंधित क्वेरी बा, त कृपया बेझिझक हमनी से मुफ्त उत्पाद समर्थन मंच के माध्यम से संपर्क करीं।

संबंधित लेख बा

के बारे में अउरी जाने खातिर निम्नलिखित लिंक पर जाईं: