PDF uz TXT pārveidotājs

Kā konvertēt PDF uz TXT, izmantojot Java

PDF fails parasti sastāv no teksta, attēla, virsraksta, piezīmēm un citiem elementiem. Un, tā kā šis formāts saglabā dokumenta izkārtojumu dažādās platformās (galddatorā/mobilajā ierīcē utt.), tāpēc to plaši izmanto informācijas apmaiņai internetā. Tomēr mums var būt nepieciešams izvilkt PDF dokumenta teksta saturu turpmākai apstrādei. Tāpēc šajā rakstā mēs apspriedīsim informāciju par to, kā izvilkt tekstu no PDF, izmantojot Java Cloud SDK. Kad darbība ir pabeigta, izvade tiek saglabāta TXT formātā.

PDF uz TXT konvertēšanas API

Aspose.PDF Cloud SDK for Java ir mūsu godalgotais REST API risinājums, kas piedāvā iespējas izveidot, rediģēt un pārveidot PDF formātā JPG, XPS, HTML, DOCX un dažādos citos atbalstītos formātos. Tagad, lai ieviestu pdf teksta atpazīšanas iespējas Java lietojumprogrammā, lūdzu, pievienojiet tālāk norādīto informāciju maven build tipa projekta pom.xml.

<repositories> 
    <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>https://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-pdf-cloud</artifactId>
        <version>21.11.0</version>
    </dependency>
</dependencies>

Pēc SDK instalēšanas nākamais svarīgais solis ir bezmaksas konta izveide pakalpojumā Aspose Cloud. Tāpēc, lūdzu, piesakieties, izmantojot jaunizveidoto kontu, un vietnē Cloud Dashboard atrodiet/izveidojiet klienta ID un klienta noslēpumu. Šī informācija ir nepieciešama turpmākajās sadaļās.

PDF uz tekstu Java

Lūdzu, veiciet tālāk norādītās darbības, lai veiktu PDF konvertēšanu uz tekstu, izmantojot Java Cloud SDK. Tātad pēc veiksmīgas konvertēšanas iegūtais TXT fails tiek saglabāts mākoņa krātuvē.

  • Vispirms mums ir jāizveido PdfApi objekts, vienlaikus nodrošinot ClientID un Client Secret kā argumentus
  • Otrkārt, ielādējiet ievades PDF failu, izmantojot faila gadījumu
  • Augšupielādējiet ievades PDF failu mākoņkrātuvē, izmantojot metodi uploadFile(…).
  • Izveidojiet veselu mainīgo, norādot PDF lappuses numuru teksta izvilkšanai, un dubultos gadījumus, kas norāda lapas taisnstūra apgabalu, no kura mums ir jāizvelk teksta saturs
  • Visbeidzot, izsauciet metodi getPageText(…), lai iegūtu teksta saturu no ievades PDF
try
    {
    // Iegūstiet ClientID un ClientSecret no https://dashboard.aspose.cloud/
    String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
    String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
	  
    // izveidot PdfApi gadījumu
    PdfApi pdfApi = new PdfApi(clientSecret,clientId);

    // ievades PDF dokumenta nosaukums
    String inputFile = "marketing.pdf";

    // lasīt ievades PDF faila saturu
    File file = new File("//Users//"+inputFile);
	    
    // augšupielādējiet PDF failu mākoņa krātuvē
    pdfApi.uploadFile("input.pdf", file, null);

    // konkrēta PDF lapa konvertēšanai
    int pageNumber =1;

    // Apakšējā kreisā stūra X-koordināta
    Double LLX = 0.0;
    // Y - apakšējā kreisā stūra koordināte.
    Double LLY = 0.0;
    // X - augšējā labā stūra koordināte.
    Double URX = 800.0;
    // Y - augšējā labā stūra koordināte.
    Double URY = 800.0;
	       
    // zvaniet API, lai PDF pārveidotu par tekstu
    TextRectsResponse response = pdfApi.getPageText(inputFile, pageNumber, LLX, LLY, URX, URY, null, null, true, null, "default");	    
    
    // iegūtais TXT faila gadījums
    FileWriter myWriter = new FileWriter("filename.txt");
  
    // Tagad šķērsojiet atsevišķu teksta gadījumu, lai iegūtu drukas rezultātu konsolē
    for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
    {
        // rakstīt teksta saturu TXT failā
	myWriter.write(response.getTextOccurrences().getList().get(counter).getText());
    }
  
    // aizveriet TXT apstrādātāju
    myWriter.close();
    
    System.out.println("Text successfully extracted from PDF !");
    }catch(Exception ex)
    {
	      System.out.println(ex);
    }
Pārvērst PDF uz TXT

  1. attēls: PDF uz TXT konvertēšanas priekšskatījums

Iepriekš minētajā piemērā izmantoto PDF faila paraugu var lejupielādēt no marketing.pdf un extracted.txt.

Izņemiet tekstu no PDF, izmantojot cURL komandas

REST API var viegli piekļūt, izmantojot cURL komandas, tāpēc šajā sadaļā mēs izpētīsim iespēju, kā mēs varam iegūt teksta saturu no PDF, izmantojot cURL komandas. Tātad kā priekšnoteikums mums vispirms ir jāģenerē JWT piekļuves pilnvara (pamatojoties uz klienta akreditācijas datiem), vienlaikus izpildot šo komandu.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Kad mums ir JWT marķieris, mums ir jāizpilda šāda komanda, lai PDF dokumentā iegūtu visus teksta gadījumus.

curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>"

Secinājums

Šajā rakstā ir sniegta detalizēta informācija par to, kā pārvērst PDF par TXT, izmantojot Java Cloud SDK. Tajā pašā laikā mēs esam arī izpētījuši iespējas teksta izvilkšanai no PDF, izmantojot cURL komandas. Tādējādi, izmantojot elastīgu pārvietošanos starp vairākām PDF lapām, mēs varam kontrolēt, kur izvilkt saturu. Mēs ļoti iesakām izpētīt produktu Dokumentācija, lai uzzinātu vairāk par citām aizraujošajām funkcijām, ko piedāvā Java Cloud API. Turklāt, tā kā visi mūsu mākoņa SDK ir publicēti saskaņā ar MIT licenci, varat apsvērt iespēju lejupielādēt visu avota kodu no GitHub un pārveidot to atbilstoši savām prasībām. Ja rodas problēmas, varat sazināties ar mums, lai ātri atrisinātu to, izmantojot bezmaksas produktu atbalsta forumu.

Saistītie raksti

Lūdzu, apmeklējiet šīs saites, lai uzzinātu vairāk par: