PDF fails parasti sastāv no teksta, attēla, virsraksta, piezīmēm un citiem elementiem. Un, tā kā šis formāts saglabā dokumenta izkārtojumu dažādās platformās (galddatorā/mobilajā ierīcē utt.), tāpēc to plaši izmanto informācijas apmaiņai internetā. Tomēr mums var būt nepieciešams izvilkt PDF dokumenta teksta saturu turpmākai apstrādei. Tāpēc šajā rakstā mēs apspriedīsim informāciju par to, kā izvilkt tekstu no PDF, izmantojot Java Cloud SDK. Kad darbība ir pabeigta, izvade tiek saglabāta TXT formātā.
PDF uz TXT konvertēšanas API
Aspose.PDF Cloud SDK for Java ir mūsu godalgotais REST API risinājums, kas piedāvā iespējas izveidot, rediģēt un pārveidot PDF formātā JPG, XPS, HTML, DOCX un dažādos citos atbalstītos formātos. Tagad, lai ieviestu pdf teksta atpazīšanas iespējas Java lietojumprogrammā, lūdzu, pievienojiet tālāk norādīto informāciju maven build tipa projekta pom.xml.
<repositories>
<repository>
<id>aspose-cloud</id>
<name>artifact.aspose-cloud-releases</name>
<url>https://artifact.aspose.cloud/repo</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf-cloud</artifactId>
<version>21.11.0</version>
</dependency>
</dependencies>
Pēc SDK instalēšanas nākamais svarīgais solis ir bezmaksas konta izveide pakalpojumā Aspose Cloud. Tāpēc, lūdzu, piesakieties, izmantojot jaunizveidoto kontu, un vietnē Cloud Dashboard atrodiet/izveidojiet klienta ID un klienta noslēpumu. Šī informācija ir nepieciešama turpmākajās sadaļās.
PDF uz tekstu Java
Lūdzu, veiciet tālāk norādītās darbības, lai veiktu PDF konvertēšanu uz tekstu, izmantojot Java Cloud SDK. Tātad pēc veiksmīgas konvertēšanas iegūtais TXT fails tiek saglabāts mākoņa krātuvē.
- Vispirms mums ir jāizveido PdfApi objekts, vienlaikus nodrošinot ClientID un Client Secret kā argumentus
- Otrkārt, ielādējiet ievades PDF failu, izmantojot faila gadījumu
- Augšupielādējiet ievades PDF failu mākoņkrātuvē, izmantojot metodi uploadFile(…).
- Izveidojiet veselu mainīgo, norādot PDF lappuses numuru teksta izvilkšanai, un dubultos gadījumus, kas norāda lapas taisnstūra apgabalu, no kura mums ir jāizvelk teksta saturs
- Visbeidzot, izsauciet metodi getPageText(…), lai iegūtu teksta saturu no ievades PDF
try
{
// Iegūstiet ClientID un ClientSecret no https://dashboard.aspose.cloud/
String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
// izveidot PdfApi gadījumu
PdfApi pdfApi = new PdfApi(clientSecret,clientId);
// ievades PDF dokumenta nosaukums
String inputFile = "marketing.pdf";
// lasīt ievades PDF faila saturu
File file = new File("//Users//"+inputFile);
// augšupielādējiet PDF failu mākoņa krātuvē
pdfApi.uploadFile("input.pdf", file, null);
// konkrēta PDF lapa konvertēšanai
int pageNumber =1;
// Apakšējā kreisā stūra X-koordināta
Double LLX = 0.0;
// Y - apakšējā kreisā stūra koordināte.
Double LLY = 0.0;
// X - augšējā labā stūra koordināte.
Double URX = 800.0;
// Y - augšējā labā stūra koordināte.
Double URY = 800.0;
// zvaniet API, lai PDF pārveidotu par tekstu
TextRectsResponse response = pdfApi.getPageText(inputFile, pageNumber, LLX, LLY, URX, URY, null, null, true, null, "default");
// iegūtais TXT faila gadījums
FileWriter myWriter = new FileWriter("filename.txt");
// Tagad šķērsojiet atsevišķu teksta gadījumu, lai iegūtu drukas rezultātu konsolē
for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
{
// rakstīt teksta saturu TXT failā
myWriter.write(response.getTextOccurrences().getList().get(counter).getText());
}
// aizveriet TXT apstrādātāju
myWriter.close();
System.out.println("Text successfully extracted from PDF !");
}catch(Exception ex)
{
System.out.println(ex);
}
Iepriekš minētajā piemērā izmantoto PDF faila paraugu var lejupielādēt no marketing.pdf un extracted.txt.
Izņemiet tekstu no PDF, izmantojot cURL komandas
REST API var viegli piekļūt, izmantojot cURL komandas, tāpēc šajā sadaļā mēs izpētīsim iespēju, kā mēs varam iegūt teksta saturu no PDF, izmantojot cURL komandas. Tātad kā priekšnoteikums mums vispirms ir jāģenerē JWT piekļuves pilnvara (pamatojoties uz klienta akreditācijas datiem), vienlaikus izpildot šo komandu.
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
Kad mums ir JWT marķieris, mums ir jāizpilda šāda komanda, lai PDF dokumentā iegūtu visus teksta gadījumus.
curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H "accept: application/json" \
-H "authorization: Bearer <JWT Token>"
Secinājums
Šajā rakstā ir sniegta detalizēta informācija par to, kā pārvērst PDF par TXT, izmantojot Java Cloud SDK. Tajā pašā laikā mēs esam arī izpētījuši iespējas teksta izvilkšanai no PDF, izmantojot cURL komandas. Tādējādi, izmantojot elastīgu pārvietošanos starp vairākām PDF lapām, mēs varam kontrolēt, kur izvilkt saturu. Mēs ļoti iesakām izpētīt produktu Dokumentācija, lai uzzinātu vairāk par citām aizraujošajām funkcijām, ko piedāvā Java Cloud API. Turklāt, tā kā visi mūsu mākoņa SDK ir publicēti saskaņā ar MIT licenci, varat apsvērt iespēju lejupielādēt visu avota kodu no GitHub un pārveidot to atbilstoši savām prasībām. Ja rodas problēmas, varat sazināties ar mums, lai ātri atrisinātu to, izmantojot bezmaksas produktu atbalsta forumu.
Saistītie raksti
Lūdzu, apmeklējiet šīs saites, lai uzzinātu vairāk par: