PDF-ից TXT փոխարկիչ

Ինչպես փոխարկել PDF-ը TXT-ի Java-ի միջոցով

PDF ֆայլը սովորաբար բաղկացած է տեքստից, պատկերից, վերնագրից, ծանոթագրություններից և այլ տարրերից: Եվ քանի որ այս ձևաչափը պահպանում է փաստաթղթերի դասավորությունը տարբեր հարթակներում (Desktop / Mobile և այլն), ուստի այն լայնորեն օգտագործվում է ինտերնետում տեղեկատվություն տարածելու համար: Այնուամենայնիվ, մենք կարող ենք պահանջ ունենալ PDF փաստաթղթի տեքստային բովանդակությունը հանելու հետագա մշակման համար: Այսպիսով, այս հոդվածում մենք պատրաստվում ենք քննարկել մանրամասները, թե ինչպես կարելի է PDF-ից տեքստ հանել Java Cloud SDK-ի միջոցով: Գործողությունն ավարտվելուց հետո ելքը պահվում է TXT ձևաչափով:

PDF-ից TXT փոխակերպման API

Aspose.PDF Cloud SDK Java-ի համար-ը մեր մրցանակակիր REST API լուծումն է, որն առաջարկում է PDF-ը ստեղծելու, խմբագրելու և փոխակերպելու JPG, XPS, HTML, DOCX և տարբեր այլ աջակցվող ձևաչափեր: Այժմ Java հավելվածում pdf տեքստի ճանաչման հնարավորությունները կիրառելու համար խնդրում ենք ավելացնել հետևյալ մանրամասները pom.xml maven build տիպի նախագծի մեջ:

<repositories> 
    <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>https://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-pdf-cloud</artifactId>
        <version>21.11.0</version>
    </dependency>
</dependencies>

SDK-ի տեղադրումից հետո հաջորդ կարևոր քայլը Aspose Cloud-ով անվճար հաշվի ստեղծումն է: Այսպիսով, խնդրում ենք մուտք գործել՝ օգտագործելով նորաստեղծ հաշիվ և փնտրել/ստեղծել Հաճախորդի ID-ն և Հաճախորդի գաղտնիքը Cloud Dashboard-ում: Այս մանրամասները պահանջվում են հաջորդ բաժիններում:

PDF դեպի տեքստ Java-ում

Խնդրում ենք հետևել ստորև տրված քայլերին, որպեսզի կատարեք PDF-ի տեքստի փոխարկումը Java Cloud SDK-ի միջոցով: Այսպիսով, հաջող փոխակերպումից հետո ստացված TXT ֆայլը պահվում է ամպային պահեստում:

  • Սկզբում մենք պետք է ստեղծենք PdfApi օբյեկտ՝ որպես փաստարկներ տրամադրելով ClientID և Client գաղտնիքը
  • Երկրորդ, բեռնեք մուտքագրված PDF ֆայլը, օգտագործելով File օրինակը
  • Ներբեռնեք մուտքագրված PDF-ը ամպային պահեստում՝ օգտագործելով uploadFile(…) մեթոդը
  • Ստեղծեք ամբողջ թվով փոփոխական, որը նշում է PDF-ի էջի համարը տեքստի արդյունահանման համար և կրկնակի օրինակներ, որոնք ցույց են տալիս էջի ուղղանկյուն հատվածը, որտեղից մենք պետք է հանենք տեքստային բովանդակությունը:
  • Վերջապես զանգահարեք getPageText(…) մեթոդը՝ մուտքագրված PDF-ից տեքստային բովանդակություն ստանալու համար
try
    {
    // Ստացեք ClientID-ը և ClientSecret-ը https://dashboard.aspose.cloud/-ից
    String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
    String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
	  
    // ստեղծել PdfApi-ի օրինակ
    PdfApi pdfApi = new PdfApi(clientSecret,clientId);

    // մուտքագրված PDF փաստաթղթի անվանումը
    String inputFile = "marketing.pdf";

    // կարդալ մուտքագրված PDF ֆայլի բովանդակությունը
    File file = new File("//Users//"+inputFile);
	    
    // վերբեռնեք PDF-ը ամպային պահեստում
    pdfApi.uploadFile("input.pdf", file, null);

    // PDF-ի հատուկ էջ՝ փոխակերպման համար
    int pageNumber =1;

    // Ներքևի ձախ անկյունի X-կոորդինատը
    Double LLX = 0.0;
    // Y - ստորին ձախ անկյունի կոորդինատը:
    Double LLY = 0.0;
    // X - վերին աջ անկյունի կոորդինատը:
    Double URX = 800.0;
    // Y - վերին աջ անկյունի կոորդինատը:
    Double URY = 800.0;
	       
    // զանգահարեք API՝ PDF-ը տեքստի փոխարկելու համար
    TextRectsResponse response = pdfApi.getPageText(inputFile, pageNumber, LLX, LLY, URX, URY, null, null, true, null, "default");	    
    
    // արդյունք TXT ֆայլի օրինակ
    FileWriter myWriter = new FileWriter("filename.txt");
  
    // Այժմ անցեք առանձին տեքստի առաջացման միջով, ստացեք տպման արդյունք վահանակում
    for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
    {
        // գրել տեքստային բովանդակություն TXT ֆայլում
	myWriter.write(response.getTextOccurrences().getList().get(counter).getText());
    }
  
    // փակեք TXT կարգավորիչը
    myWriter.close();
    
    System.out.println("Text successfully extracted from PDF !");
    }catch(Exception ex)
    {
	      System.out.println(ex);
    }
Փոխարկել PDF-ը TXT-ի

Պատկեր 1.- PDF-ից TXT փոխակերպման նախադիտում

Վերոհիշյալ օրինակում օգտագործված PDF ֆայլի նմուշը կարելի է ներբեռնել marketing.pdf և extracted.txt-ից:

Քաղեք տեքստ PDF-ից՝ օգտագործելով cURL հրամանները

REST API-ներին կարելի է հեշտությամբ մուտք գործել cURL հրամանների միջոցով, ուստի այս բաժնում մենք պատրաստվում ենք ուսումնասիրել այն տարբերակը, թե ինչպես կարող ենք տեքստային բովանդակությունը PDF-ից հանել՝ օգտագործելով cURL հրամանները: Այսպիսով, որպես նախապայման, մենք նախ պետք է գեներացնենք JWT մուտքի նշան (հիմնված հաճախորդի հավատարմագրերի վրա) հետևյալ հրամանը կատարելիս:

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Երբ մենք ունենանք JWT նշանը, մենք պետք է կատարենք հետևյալ հրամանը՝ PDF փաստաթղթում տեքստի բոլոր դեպքերը հանելու համար:

curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>"

Եզրակացություն

Այս հոդվածը բացատրել է մանրամասները, թե ինչպես փոխարկել PDF-ը TXT-ի Java Cloud SDK-ի միջոցով: Միևնույն ժամանակ, մենք նաև ուսումնասիրել ենք cURL հրամանների միջոցով PDF-ից տեքստ հանելու տարբերակները: Այսպիսով, բազմաթիվ PDF էջերի միջև անցնելու ճկունությամբ մենք վերահսկում ենք, թե որտեղից պետք է արդյունահանենք բովանդակությունը: Մենք բարձր խորհուրդ ենք տալիս ուսումնասիրել արտադրանքը Documentation՝ ավելին իմանալու Java Cloud API-ի կողմից առաջարկվող այլ հետաքրքիր հատկությունների մասին: Նաև, քանի որ մեր բոլոր Cloud SDK-ները հրապարակված են MIT լիցենզիայի ներքո, այնպես որ կարող եք դիտարկել ներբեռնելու ամբողջական աղբյուր կոդը GitHub-ից և փոփոխել այն՝ ըստ ձեր պահանջների: Խնդիրների դեպքում կարող եք դիմել մեզ՝ արագ լուծման համար անվճար ապրանքի աջակցման ֆորումի միջոցով:

Առնչվող հոդվածներ

Խնդրում ենք այցելել հետևյալ հղումները՝ ավելին իմանալու համար.