PDF నుండి వచనాన్ని సంగ్రహించండి

జావాలో PDF నుండి వచనాన్ని సంగ్రహించండి

సాఫ్ట్‌వేర్, హార్డ్‌వేర్ లేదా ఆపరేటింగ్ సిస్టమ్‌తో సంబంధం లేకుండా విశ్వసనీయంగా పత్రాలను సమర్పించడానికి మరియు మార్పిడి చేయడానికి ఉపయోగించే PDF ఫైల్‌లు అత్యంత ముఖ్యమైన మరియు విస్తృతంగా ఉపయోగించే డిజిటల్ ఫార్మాట్‌లలో ఒకటి అని మనందరికీ తెలుసు. అయితే, కొన్ని సందర్భాల్లో, మేము పెద్ద PDF ఫైల్‌ల నుండి సారాంశాన్ని పొందడానికి ఆసక్తి కలిగి ఉండవచ్చు. లేదా, ఆన్‌లైన్‌లో టెక్స్ట్‌కు PDFని సేవ్ చేయాల్సిన అవసరం మాకు ఉండవచ్చు. కాబట్టి ఈ కథనంలో, మేము జావా REST APIని ఉపయోగించి PDF నుండి టెక్స్ట్ కన్వర్టర్‌ను ఎలా అభివృద్ధి చేయాలనే వివరాలను అన్వేషించబోతున్నాము.

PDF జనరేటర్ API

టెంప్లేట్‌లను ఉపయోగించి లేదా మా REST APIని ఉపయోగించి మొదటి నుండి PDF పత్రాలను రూపొందించడానికి పరపతిని పొందండి. అదే సమయంలో, API మిమ్మల్ని సవరించడానికి అలాగే PDF ఫైల్‌లను ఇతర 6కి మార్చడానికి అనుమతిస్తుంది. మీరు PDF నుండి టెక్స్ట్‌ని సంగ్రహించడం, జావా క్లౌడ్ SDKని ఉపయోగించి PDF ఫైల్‌లను డీక్రిప్ట్ చేయడం మరియు విలీనం చేయడం వంటి ప్రయోజనాలను కూడా పొందవచ్చు. ఇప్పుడు, జావా 17 కోసం [Aspose.PDF క్లౌడ్ SDKని ఉపయోగించడానికి, మేము ఈ క్రింది వివరాలను pom.xml (మేవెన్ బిల్డ్ టైప్ ప్రాజెక్ట్)లో చేర్చడం ద్వారా మా జావా అప్లికేషన్‌లో దాని సూచనను జోడించాలి.

<repositories> 
    <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>http://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-cloud-pdf</artifactId>
        <version>21.11.0</version>
        <scope>compile</scope>
    </dependency>
</dependencies>

ఇన్‌స్టాలేషన్ తర్వాత, మేము Cloud Dashboard ద్వారా ఉచిత ఖాతాను సృష్టించాలి మరియు వ్యక్తిగతీకరించిన క్లయింట్ ఆధారాలను పొందాలి.

జావాను ఉపయోగించి PDF నుండి వచనాన్ని సంగ్రహించండి

జావా క్లౌడ్ SDKని ఉపయోగించి PDF నుండి వచనాన్ని సంగ్రహించడానికి వివరాలను అన్వేషిద్దాం. ఈ ఉదాహరణలో, మేము కింది ఇన్‌పుట్‌ను ఉపయోగించబోతున్నాము PdfWithTable.pdf ఫైల్.

pdf నుండి టెక్స్ట్ ocr

చిత్రం 1:- PDF నుండి టెక్స్ట్ వెలికితీత కోసం ఇన్‌పుట్ ఫైల్.

pdf నుండి టెక్స్ట్ ocr

చిత్రం 2:- PDF ప్రివ్యూ నుండి వచనాన్ని సంగ్రహించండి

// మరిన్ని ఉదాహరణల కోసం, దయచేసి https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-java/tree/master/Examples/src/main/java/com/aspose/asposecloudpdf/examplesని సందర్శించండి

try
    {
    // https://dashboard.aspose.cloud/ నుండి ClientID మరియు ClientSecretని పొందండి
    String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
    String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
		    
    // PdfApi యొక్క ఉదాహరణను సృష్టించండి
    PdfApi pdfApi = new PdfApi(clientSecret,clientId);
    // ఇన్‌పుట్ PDF పత్రం పేరు
    String name = "PdfWithTable.pdf";
		        
    // ఇన్‌పుట్ PDF ఫైల్ కంటెంట్‌ను చదవండి
    File file = new File(name); 
    // క్లౌడ్ నిల్వకు PDFని అప్‌లోడ్ చేయండి
    pdfApi.uploadFile("input.pdf", file, null);
		        
    // దిగువ - ఎడమ మూలలో X-కోఆర్డినేట్
    Double LLX = 500.0;
    // Y - దిగువ-ఎడమ మూలలో కోఆర్డినేట్.
    Double LLY = 500.0;
    // X - ఎగువ-కుడి మూలలో కోఆర్డినేట్.
    Double URX = 800.0;
    // Y - ఎగువ-కుడి మూలలో కోఆర్డినేట్.
    Double URY = 800.0;
			       
    // PDFని టెక్స్ట్‌గా మార్చడానికి APIకి కాల్ చేయండి
    TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);    
		    
    // వ్యక్తిగత వచన సంభవం ద్వారా ప్రయాణించండి
    for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
    {
        // కన్సోల్‌లో టెక్స్ట్ కంటెంట్‌ని వ్రాయండి
        System.out.println(response.getTextOccurrences().getList().get(counter).getText());
    }
		  
    System.out.println("Extract Text from PDF successful !");
    }catch(Exception ex)
    {
        System.out.println(ex);
    }

ఇప్పుడు పైన పేర్కొన్న కోడ్ స్నిప్పెట్‌ను అర్థం చేసుకోవడానికి ప్రయత్నిద్దాం:

PdfApi pdfApi = new PdfApi(clientSecret,clientId);

వ్యక్తిగతీకరించిన ఆధారాలను ఆర్గ్యుమెంట్‌లుగా పాస్ చేస్తున్నప్పుడు PdfApi యొక్క ఉదాహరణను సృష్టించండి.

File file = new File(name); 
pdfApi.uploadFile("input.pdf", file, null);

ఫైల్ ఆబ్జెక్ట్‌ని ఉపయోగించి ఇన్‌పుట్ PDFని చదవండి మరియు PdfAPi క్లాస్ యొక్క uploadFile(…) పద్ధతిని ఉపయోగించి క్లౌడ్ స్టోరేజ్‌కి అప్‌లోడ్ చేయండి. అప్‌లోడ్‌ఫైల్ పద్ధతిలో ఉపయోగించిన పేరుతో ఫైల్ అప్‌లోడ్ చేయబడిందని దయచేసి గమనించండి.

TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);    

ఇప్పుడు getText(..) పద్ధతికి కాల్ చేయండి, ఇక్కడ మేము ఇన్‌పుట్ PDF ఫైల్ పేరును పేర్కొనండి, పేజీలో దీర్ఘచతురస్రాకార కొలతలు, దాని నుండి మనం వచన కంటెంట్‌ను సంగ్రహించాలి మరియు సంగ్రహించిన కంటెంట్‌ను TextRectsResponse ఆబ్జెక్ట్‌కు తిరిగి ఇవ్వాలి.

response.getTextOccurrences().getList().get(counter).getText()

చివరగా, సంగ్రహించబడిన టెక్స్ట్ కంటెంట్‌ను ప్రింట్ చేయడానికి, మేము అన్ని TextOccurances ద్వారా మళ్ళించబోతున్నాము మరియు వాటిని కన్సోల్‌లో ప్రదర్శిస్తాము.

CURL ఆదేశాలను ఉపయోగించి PDF నుండి టెక్స్ట్ చేయండి

జావా కోడ్ స్నిప్పెట్ కాకుండా, మేము cURL ఆదేశాలను ఉపయోగించి pdftotext ఆపరేషన్‌ను కూడా చేయవచ్చు. ఇప్పుడు, కింది ఆదేశాన్ని ఉపయోగించి JWT యాక్సెస్ టోకెన్‌ను (క్లైంట్ ఆధారాల ఆధారంగా) రూపొందించడం ఈ విధానానికి ముందస్తు అవసరం.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

JWT రూపొందించబడిన తర్వాత, క్లౌడ్ స్టోరేజ్‌లో ఇప్పటికే అందుబాటులో ఉన్న PDF ఫైల్ నుండి టెక్స్ట్‌ను సంగ్రహించడానికి దయచేసి కింది ఆదేశాన్ని అమలు చేయండి.

curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>"

త్వరిత చిట్కా

PDF నుండి టెక్స్ట్ ఉచిత యాప్ కోసం వెతుకుతోంది! దయచేసి మా PDF పార్సర్ని ఉపయోగించి ప్రయత్నించండి.

ముగింపు మాటలు

ముగింపులో, జావాను ఉపయోగించి PDF ఫైల్‌ల నుండి వచనాన్ని సంగ్రహించడం వారి డేటా ప్రాసెసింగ్ మరియు విశ్లేషణ అవసరాలను ఆటోమేట్ చేయాలని చూస్తున్న వారికి శక్తివంతమైన పరిష్కారం. ఈ గైడ్ సహాయంతో, మీరు ఇప్పుడు నిర్మించడానికి బలమైన పునాదిని కలిగి ఉన్నారు మరియు PDF పత్రాల నుండి టెక్స్ట్ వెలికితీత కోసం మీ స్వంత జావా-ఆధారిత పరిష్కారాన్ని సులభంగా అమలు చేయవచ్చు. మీరు డేటా విశ్లేషణ, మెషిన్ లెర్నింగ్ లేదా మరేదైనా ప్రయోజనం కోసం టెక్స్ట్‌ని సేకరించాలని చూస్తున్నా, జావా మీ అవసరాలకు అనువైన మరియు నమ్మదగిన ప్లాట్‌ఫారమ్‌ను అందిస్తుంది. కాబట్టి ముందుకు సాగండి మరియు మీరు కొత్తగా సంపాదించిన నైపుణ్యాలను పరీక్షించండి!

API అందించే ఇతర ఉత్తేజకరమైన ఫీచర్‌లను అన్వేషించడానికి మీకు ఆసక్తి ఉంటే, దయచేసి [ఉత్పత్తి డాక్యుమెంటేషన్11ని అన్వేషించండి. చివరగా, మీరు APIని ఉపయోగిస్తున్నప్పుడు ఏదైనా సమస్యను ఎదుర్కొన్నట్లయితే లేదా మీకు ఏదైనా సంబంధిత ప్రశ్న ఉంటే, దయచేసి ఉచిత [ఉత్పత్తి మద్దతు ఫోరమ్9 ద్వారా మమ్మల్ని సంప్రదించడానికి సంకోచించకండి.

సంబంధిత కథనాలు

దీని గురించి మరింత తెలుసుకోవడానికి దయచేసి క్రింది లింక్‌లను సందర్శించండి: