Konverteris iš PDF į TXT

Kaip konvertuoti PDF į TXT naudojant Java

PDF failą paprastai sudaro tekstas, vaizdas, antraštė, komentarai ir kiti elementai. Ir kadangi šis formatas išsaugo dokumento išdėstymą įvairiose platformose (staliniame kompiuteryje / mobiliajame ir kt.), todėl jis plačiai naudojamas dalytis informacija internete. Tačiau galime reikalauti toliau apdoroti PDF dokumento tekstinį turinį. Taigi šiame straipsnyje aptarsime išsamią informaciją apie tai, kaip išgauti tekstą iš PDF naudojant Java Cloud SDK. Kai operacija bus baigta, išvestis išsaugoma TXT formatu.

PDF į TXT konvertavimo API

Aspose.PDF Cloud SDK for Java yra mūsų apdovanojimus pelnęs REST API sprendimas, suteikiantis galimybę kurti, redaguoti ir konvertuoti PDF į JPG, XPS, HTML, DOCX ir įvairius kitus palaikomus formatus. Dabar, norėdami įdiegti pdf teksto atpažinimo galimybes Java programoje, pridėkite toliau pateiktą informaciją į maven build tipo projekto pom.xml.

<repositories> 
    <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>http://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-pdf-cloud</artifactId>
        <version>21.11.0</version>
    </dependency>
</dependencies>

Įdiegus SDK, kitas svarbus žingsnis yra nemokamos paskyros sukūrimas per Aspose Cloud. Taigi prisijunkite naudodami naujai sukurtą paskyrą ir Cloud Dashboard ieškokite / sukurkite kliento ID ir kliento paslaptį. Šią informaciją reikia pateikti tolesniuose skyriuose.

PDF į tekstą Java

Atlikite toliau nurodytus veiksmus, norėdami konvertuoti PDF į tekstą naudodami Java Cloud SDK. Taigi po sėkmingo konvertavimo gautas TXT failas išsaugomas debesies saugykloje.

  • Pirmiausia turime sukurti PdfApi objektą, kaip argumentus pateikdami ClientID ir Client secret
  • Antra, įkelkite įvesties PDF failą naudodami failo egzempliorių
  • Įkelkite įvesties PDF į debesies saugyklą naudodami įkėlimo failo (…) metodą
  • Sukurkite sveikojo skaičiaus kintamąjį, nurodydami PDF puslapio numerį tekstui išgauti, ir dvigubus atvejus, nurodančius stačiakampę puslapio sritį, iš kurios turime išgauti tekstinį turinį
  • Galiausiai iškvieskite getPageText(…) metodą, kad gautumėte tekstinį turinį iš įvesties PDF
try
    {
    // Gaukite ClientID ir ClientSecret iš https://dashboard.aspose.cloud/
    String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
    String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
	  
    // sukurti PdfApi egzempliorių
    PdfApi pdfApi = new PdfApi(clientSecret,clientId);

    // įvesties PDF dokumento pavadinimas
    String inputFile = "marketing.pdf";

    // skaityti įvesties PDF failo turinį
    File file = new File("//Users//"+inputFile);
	    
    // įkelti PDF į debesies saugyklą
    pdfApi.uploadFile("input.pdf", file, null);

    // konkretus PDF puslapis konvertavimui
    int pageNumber =1;

    // Apatinio kairiojo kampo X koordinatė
    Double LLX = 0.0;
    // Y - apatinio kairiojo kampo koordinatė.
    Double LLY = 0.0;
    // X - viršutinio dešiniojo kampo koordinatė.
    Double URX = 800.0;
    // Y - viršutinio dešiniojo kampo koordinatė.
    Double URY = 800.0;
	       
    // skambinkite API norėdami konvertuoti PDF į tekstą
    TextRectsResponse response = pdfApi.getPageText(inputFile, pageNumber, LLX, LLY, URX, URY, null, null, true, null, "default");	    
    
    // gautas TXT failo egzempliorius
    FileWriter myWriter = new FileWriter("filename.txt");
  
    // Dabar pereikite per atskirą teksto įvykį ir gaukite spausdinimo rezultatą konsolėje
    for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
    {
        // rašyti tekstinį turinį į TXT failą
	myWriter.write(response.getTextOccurrences().getList().get(counter).getText());
    }
  
    // uždarykite TXT tvarkyklę
    myWriter.close();
    
    System.out.println("Text successfully extracted from PDF !");
    }catch(Exception ex)
    {
	      System.out.println(ex);
    }
Konvertuoti PDF į TXT

1 vaizdas: – konvertavimo iš PDF į TXT peržiūra

Pirmiau pateiktame pavyzdyje naudotą PDF failo pavyzdį galima atsisiųsti iš marketing.pdf ir extracted.txt

Ištraukite tekstą iš PDF naudodami cURL komandas

REST API galima lengvai pasiekti naudojant cURL komandas, todėl šiame skyriuje mes išnagrinėsime, kaip galime išgauti tekstinį turinį iš PDF naudodami cURL komandas. Taigi, kaip būtina sąlyga, vykdydami šią komandą pirmiausia turime sugeneruoti JWT prieigos raktą (pagal kliento kredencialus).

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Kai turėsime JWT prieigos raktą, turime vykdyti šią komandą, kad ištrauktume visus teksto įvykius PDF dokumente.

curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>"

Išvada

Šiame straipsnyje paaiškinta, kaip konvertuoti PDF į TXT naudojant Java Cloud SDK. Tuo pačiu metu mes taip pat ištyrėme teksto ištraukimo iš PDF parinktis naudojant cURL komandas. Taigi, lanksčiai pereinant tarp kelių PDF puslapių, galime valdyti, kur išgauti turinį. Labai rekomenduojame ištirti produktą Dokumentacija, kad sužinotumėte daugiau apie kitas įdomias funkcijas, kurias siūlo „Java Cloud API“. Be to, kadangi visi mūsų debesies SDK yra paskelbti pagal MIT licenciją, galite apsvarstyti galimybę atsisiųsti visą šaltinio kodą iš GitHub ir pakeisti jį pagal savo poreikius. Iškilus problemoms galite susisiekti su mumis ir greitai išspręsti problemą per nemokamą produkto palaikymo forumą.

susiję straipsniai

Norėdami sužinoti daugiau apie tai, apsilankykite šiose nuorodose: