PDF मधून मजकूर काढा

Java मध्ये PDF मधून मजकूर काढा

आपल्या सर्वांना माहित आहे की PDF फायली हे सॉफ्टवेअर, हार्डवेअर किंवा ऑपरेटिंग सिस्टमपासून स्वतंत्रपणे दस्तऐवज विश्वसनीयरित्या सादर करण्यासाठी आणि देवाणघेवाण करण्यासाठी वापरल्या जाणार्‍या सर्वात महत्त्वाच्या आणि मोठ्या प्रमाणावर वापरल्या जाणार्‍या डिजिटल स्वरूपांपैकी एक आहेत. तथापि, काही परिस्थितींमध्ये, आम्हाला मोठ्या PDF फायलींमधून उतारा मिळवण्यात स्वारस्य असू शकते. किंवा, आम्हाला PDF टू टेक्स्ट ऑनलाइन जतन करण्याची आवश्यकता असू शकते. तर या लेखात, आम्ही Java REST API वापरून पीडीएफ टू टेक्स्ट कन्व्हर्टर कसा विकसित करायचा याचे तपशील एक्सप्लोर करणार आहोत.

पीडीएफ जनरेटर API

आमचे REST API वापरून टेम्पलेट वापरून किंवा सुरवातीपासून PDF दस्तऐवज व्युत्पन्न करण्यासाठी फायदा मिळवा. त्याच वेळी, API तुम्हाला पीडीएफ फाइल्सचे इतर [सपोर्टेड फॉरमॅट्स] मध्ये रुपांतर करण्यास तसेच संपादित करण्यास सक्षम करते6. तुम्ही PDF मधून मजकूर काढणे, Java Cloud SDK वापरून PDF फाइल्स डिक्रिप्ट करणे आणि विलीन करण्याचे फायदे देखील घेऊ शकता. आता, [Aspose.PDF Cloud SDK for Java17 वापरण्यासाठी, आम्हाला pom.xml (maven बिल्ड प्रकार प्रकल्प) मध्ये खालील तपशील समाविष्ट करून आमच्या Java ऍप्लिकेशनमध्ये त्याचा संदर्भ जोडावा लागेल.

<repositories> 
    <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>http://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-cloud-pdf</artifactId>
        <version>21.11.0</version>
        <scope>compile</scope>
    </dependency>
</dependencies>

स्थापनेनंतर, आम्हाला Cloud Dashboard वर एक विनामूल्य खाते तयार करणे आणि वैयक्तिकृत क्लायंट क्रेडेन्शियल प्राप्त करणे आवश्यक आहे.

Java वापरून PDF मधून मजकूर काढा

Java क्लाउड SDK वापरून PDF मधून मजकूर काढण्यासाठी तपशील एक्सप्लोर करूया. या उदाहरणात, आम्ही खालील इनपुट PdfWithTable.pdf वापरणार आहोत. फाइल

पीडीएफ ते मजकूर ओसीआर

प्रतिमा 1:- PDF ते मजकूर काढण्यासाठी फाइल इनपुट करा.

पीडीएफ ते मजकूर ओसीआर

प्रतिमा २:- PDF पूर्वावलोकनातून मजकूर काढा

// अधिक उदाहरणांसाठी, कृपया https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-java/tree/master/Examples/src/main/java/com/aspose/asposecloudpdf/examples ला भेट द्या

try
    {
    // https://dashboard.aspose.cloud/ वरून ClientID आणि ClientSecret मिळवा
    String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
    String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
		    
    // PdfApi चे उदाहरण तयार करा
    PdfApi pdfApi = new PdfApi(clientSecret,clientId);
    // इनपुट पीडीएफ दस्तऐवजाचे नाव
    String name = "PdfWithTable.pdf";
		        
    // इनपुट पीडीएफ फाइलची सामग्री वाचा
    File file = new File(name); 
    // क्लाउड स्टोरेजवर PDF अपलोड करा
    pdfApi.uploadFile("input.pdf", file, null);
		        
    // खालच्या - डाव्या कोपऱ्याचा X- समन्वय
    Double LLX = 500.0;
    // Y - खालच्या-डाव्या कोपऱ्याचा समन्वय.
    Double LLY = 500.0;
    // X - वरच्या-उजव्या कोपऱ्याचा समन्वय.
    Double URX = 800.0;
    // Y - वरच्या-उजव्या कोपऱ्याचा समन्वय.
    Double URY = 800.0;
			       
    // पीडीएफला मजकूरात रूपांतरित करण्यासाठी API ला कॉल करा
    TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);    
		    
    // वैयक्तिक मजकूर घटनेतून मार्गक्रमण करा
    for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
    {
        // कन्सोलमध्ये मजकूर सामग्री लिहा
        System.out.println(response.getTextOccurrences().getList().get(counter).getText());
    }
		  
    System.out.println("Extract Text from PDF successful !");
    }catch(Exception ex)
    {
        System.out.println(ex);
    }

आता वरील निर्दिष्ट कोड स्निपेट समजून घेण्याचा प्रयत्न करूया:

PdfApi pdfApi = new PdfApi(clientSecret,clientId);

वितर्क म्हणून वैयक्तिकृत क्रेडेन्शियल्स पास करताना PdfApi चे उदाहरण तयार करा.

File file = new File(name); 
pdfApi.uploadFile("input.pdf", file, null);

फाइल ऑब्जेक्ट वापरून इनपुट पीडीएफ वाचा आणि पीडीएफएपीआय क्लासच्या uploadFile(…) पद्धतीचा वापर करून क्लाउड स्टोरेजमध्ये अपलोड करा. कृपया नोंद घ्या की फाइल uploadFile पद्धतीमध्ये वापरलेल्या नावासह अपलोड केली आहे.

TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);    

आता getText(..) पद्धतीवर कॉल करा जिथे आम्ही इनपुट पीडीएफ फाइलचे नाव, पृष्ठावरील आयताकृती परिमाणे निर्दिष्ट करतो ज्यातून आम्हाला मजकूर सामग्री काढायची आहे आणि, काढलेली सामग्री TextRectsResponse ऑब्जेक्टवर परत करायची आहे.

response.getTextOccurrences().getList().get(counter).getText()

शेवटी, काढलेला मजकूर मुद्रित करण्यासाठी, आम्ही सर्व TextOccurances द्वारे पुनरावृत्ती करणार आहोत आणि ते कन्सोलमध्ये प्रदर्शित करणार आहोत.

सीआरएल कमांड वापरून पीडीएफ टू टेक्स्ट

Java कोड स्निपेट व्यतिरिक्त, आम्ही cURL कमांड वापरून pdftotext ऑपरेशन देखील करू शकतो. आता, या दृष्टिकोनासाठी एक पूर्व शर्त म्हणजे खालील आदेश वापरून JWT ऍक्सेस टोकन (क्लायंट क्रेडेन्शियल्सवर आधारित) व्युत्पन्न करणे.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

JWT जनरेट झाल्यावर, कृपया क्लाउड स्टोरेजमध्ये आधीपासूनच उपलब्ध असलेल्या PDF फाइलमधून मजकूर काढण्यासाठी खालील आदेश कार्यान्वित करा.

curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>"

द्रुत टीप

पीडीएफ टू टेक्स्ट फ्री अॅप शोधत आहात! कृपया आमचे PDF पार्सर वापरून पहा.

समारोपाचे भाषण

शेवटी, Java वापरून PDF फाईल्समधून मजकूर काढणे हे त्यांच्या डेटा प्रोसेसिंग आणि विश्लेषणाच्या गरजा स्वयंचलित करू पाहणाऱ्यांसाठी एक शक्तिशाली उपाय असू शकते. या मार्गदर्शकाच्या मदतीने, तुमच्याकडे आता मजबूत पाया आहे आणि तुम्ही PDF दस्तऐवजांमधून मजकूर काढण्यासाठी तुमचे स्वतःचे Java-आधारित उपाय सहजपणे लागू करू शकता. तुम्ही डेटा विश्लेषण, मशीन लर्निंग किंवा इतर कोणत्याही उद्देशासाठी मजकूर काढण्याचा विचार करत असलात तरीही, Java तुमच्या गरजांसाठी एक लवचिक आणि विश्वासार्ह प्लॅटफॉर्म प्रदान करते. तर पुढे जा आणि तुमच्या नवीन आत्मसात केलेल्या कौशल्यांची चाचणी घ्या!

तुम्हाला API द्वारे ऑफर केल्या जाणार्‍या इतर रोमांचक वैशिष्ट्ये एक्सप्लोर करण्यात स्वारस्य असल्यास, कृपया [उत्पादन दस्तऐवजीकरण] एक्सप्लोर करा [११]. शेवटी, API वापरताना तुम्हाला कोणतीही समस्या आल्यास, किंवा तुम्हाला कोणतीही संबंधित क्वेरी असल्यास, कृपया आमच्याशी विनामूल्य [उत्पादन समर्थन मंच9 द्वारे संपर्क साधा.

संबंधित लेख

याबद्दल अधिक जाणून घेण्यासाठी कृपया खालील लिंक्सला भेट द्या: