հանել տեքստը PDF-ից

Քաղեք տեքստը PDF-ից Java-ում

Մենք բոլորս գիտենք, որ PDF ֆայլերը ամենակարևոր և լայնորեն օգտագործվող թվային ձևաչափերից են, որոնք օգտագործվում են փաստաթղթերը հուսալիորեն ներկայացնելու և փոխանակելու համար՝ անկախ ծրագրաշարից, սարքաշարից կամ օպերացիոն համակարգից: Այնուամենայնիվ, որոշ սցենարներում մեզ կարող է հետաքրքրել մեծ PDF ֆայլերից քաղվածք ստանալը: Կամ, մենք կարող ենք պահանջ ունենալ PDF-ը տեքստի մեջ պահել առցանց: Այսպիսով, այս հոդվածում մենք պատրաստվում ենք ուսումնասիրել մանրամասները, թե ինչպես զարգացնել PDF-ի տեքստ փոխարկիչը Java REST API-ի միջոցով:

PDF գեներատոր API

Ստացեք լծակներ PDF փաստաթղթեր ստեղծելու համար՝ օգտագործելով ձևանմուշներ կամ զրոյից՝ օգտագործելով մեր REST API-ն: Միևնույն ժամանակ, API-ն նաև հնարավորություն է տալիս խմբագրել, ինչպես նաև վերափոխել PDF ֆայլերը այլ աջակցվող ձևաչափերի: Կարող եք նաև օգտվել PDF-ից տեքստ հանելու, PDF ֆայլերի վերծանման և միաձուլման առավելություններից՝ օգտագործելով Java Cloud SDK: Այժմ, Aspose.PDF Cloud SDK-ն Java-ի համար օգտագործելու համար մենք պետք է դրա հղումը ավելացնենք մեր Java հավելվածում՝ ներառելով հետևյալ մանրամասները pom.xml-ում (maven build type project):

<repositories> 
    <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>https://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-cloud-pdf</artifactId>
        <version>21.11.0</version>
        <scope>compile</scope>
    </dependency>
</dependencies>

Տեղադրումից հետո մենք պետք է անվճար հաշիվ ստեղծենք Cloud Dashboard-ի միջոցով և ստանանք անհատականացված հաճախորդի հավատարմագրերը:

Քաղեք տեքստ PDF-ից Java-ի միջոցով

Եկեք ուսումնասիրենք մանրամասները՝ PDF-ից տեքստ հանելու համար՝ օգտագործելով Java cloud SDK-ն: Այս օրինակում մենք պատրաստվում ենք օգտագործել հետևյալ մուտքագրումը PdfWithTable.pdf ֆայլ։

pdf դեպի տեքստ ocr

Պատկեր 1:- Մուտքագրեք ֆայլ PDF-ից տեքստի արդյունահանման համար:

pdf դեպի տեքստ ocr

Պատկեր 2.- հանեք տեքստը PDF նախադիտումից

// Լրացուցիչ օրինակների համար այցելեք https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-java/tree/master/Examples/src/main/java/com/aspose/asposecloudpdf/examples

try
    {
    // Ստացեք ClientID-ը և ClientSecret-ը https://dashboard.aspose.cloud/-ից
    String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
    String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
		    
    // ստեղծել PdfApi-ի օրինակ
    PdfApi pdfApi = new PdfApi(clientSecret,clientId);
    // մուտքագրված PDF փաստաթղթի անվանումը
    String name = "PdfWithTable.pdf";
		        
    // կարդալ մուտքագրված PDF ֆայլի բովանդակությունը
    File file = new File(name); 
    // վերբեռնեք PDF-ը ամպային պահեստում
    pdfApi.uploadFile("input.pdf", file, null);
		        
    // Ներքևի ձախ անկյունի X-կոորդինատը
    Double LLX = 500.0;
    // Y - ստորին ձախ անկյունի կոորդինատը:
    Double LLY = 500.0;
    // X - վերին աջ անկյունի կոորդինատը:
    Double URX = 800.0;
    // Y - վերին աջ անկյունի կոորդինատը:
    Double URY = 800.0;
			       
    // զանգահարեք API՝ PDF-ը տեքստի փոխարկելու համար
    TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);    
		    
    // Անցնել տեքստի առանձին առաջացման միջով
    for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
    {
        // գրել տեքստային բովանդակություն վահանակում
        System.out.println(response.getTextOccurrences().getList().get(counter).getText());
    }
		  
    System.out.println("Extract Text from PDF successful !");
    }catch(Exception ex)
    {
        System.out.println(ex);
    }

Հիմա եկեք փորձենք հասկանալ վերը նշված կոդի հատվածը.

PdfApi pdfApi = new PdfApi(clientSecret,clientId);

Ստեղծեք PdfApi-ի օրինակ՝ որպես փաստարկներ փոխանցելով անհատականացված հավատարմագրերը:

File file = new File(name); 
pdfApi.uploadFile("input.pdf", file, null);

Կարդացեք մուտքագրված PDF-ը File օբյեկտի միջոցով և վերբեռնեք այն ամպային պահեստում՝ օգտագործելով PdfAPi դասի uploadFile(…) մեթոդը: Խնդրում ենք նկատի ունենալ, որ ֆայլը վերբեռնված է uploadFile մեթոդով օգտագործված անունով:

TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);    

Այժմ զանգահարեք getText(..) մեթոդը, որտեղ մենք նշում ենք մուտքագրված PDF ֆայլի անվանումը, ուղղանկյուն չափերը էջի վրա, որտեղից մենք պետք է հանենք տեքստային բովանդակությունը և արդյունահանված բովանդակությունը վերադարձնենք TextRectsResponse օբյեկտ:

response.getTextOccurrences().getList().get(counter).getText()

Վերջապես, արդյունահանված տեքստի բովանդակությունը տպելու համար մենք պատրաստվում ենք կրկնել բոլոր TextOccurances-ը և ցուցադրել դրանք վահանակում:

PDF դեպի տեքստ՝ օգտագործելով cURL հրամանները

Բացի Java կոդի հատվածից, մենք կարող ենք նաև կատարել pdftotext գործողություն՝ օգտագործելով cURL հրամանները: Այժմ այս մոտեցման նախապայմաններից մեկը JWT մուտքի նշան ստեղծելն է (հիմնված հաճախորդի հավատարմագրերի վրա)՝ օգտագործելով հետևյալ հրամանը։

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Երբ JWT-ն ստեղծվի, խնդրում ենք կատարել հետևյալ հրամանը՝ ամպային պահեստում արդեն հասանելի PDF ֆայլից տեքստ հանելու համար:

curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>"

Արագ հուշում

Փնտրում եք PDF տեքստային անվճար հավելված: Խնդրում ենք փորձել օգտագործել մեր [PDF Parser] (https://products.aspose.app/pdf/parser):

Եզրափակիչ դիտողություններ

Եզրափակելով, Java-ի միջոցով PDF ֆայլերից տեքստ հանելը կարող է հզոր լուծում լինել նրանց համար, ովքեր ցանկանում են ավտոմատացնել իրենց տվյալների մշակման և վերլուծության կարիքները: Այս ուղեցույցի օգնությամբ դուք այժմ ունեք ամուր հիմք, որի վրա պետք է կառուցեք և կարող եք հեշտությամբ կիրառել ձեր սեփական Java-ի վրա հիմնված լուծումը PDF փաստաթղթերից տեքստի արդյունահանման համար: Անկախ նրանից, թե դուք ցանկանում եք տեքստ հանել տվյալների վերլուծության, մեքենայական ուսուցման կամ որևէ այլ նպատակի համար, Java-ն ապահովում է ճկուն և հուսալի հարթակ ձեր կարիքների համար: Այսպիսով, առաջ գնացեք և փորձարկեք ձեր նոր ձեռք բերած հմտությունները:

Եթե դուք հետաքրքրված եք API-ի կողմից առաջարկվող այլ հետաքրքիր առանձնահատկություններով, խնդրում ենք ուսումնասիրել Product Documentation: Ի վերջո, եթե API-ն օգտագործելիս որևէ խնդրի եք հանդիպում, կամ որևէ առնչվող հարցում ունեք, խնդրում ենք ազատ զգալ կապվել մեզ հետ անվճար Product Support Forum միջոցով:

Առնչվող հոդվածներ

Խնդրում ենք այցելել հետևյալ հղումները՝ ավելին իմանալու համար.