PDF ֆայլը սովորաբար բաղկացած է տեքստից, պատկերից, վերնագրից, ծանոթագրություններից և այլ տարրերից: Եվ քանի որ այս ձևաչափը պահպանում է փաստաթղթերի դասավորությունը տարբեր հարթակներում (Desktop / Mobile և այլն), ուստի այն լայնորեն օգտագործվում է ինտերնետում տեղեկատվություն տարածելու համար: Այնուամենայնիվ, մենք կարող ենք պահանջ ունենալ PDF փաստաթղթի տեքստային բովանդակությունը հանելու հետագա մշակման համար: Այսպիսով, այս հոդվածում մենք պատրաստվում ենք քննարկել մանրամասները, թե ինչպես կարելի է PDF-ից տեքստ հանել Java Cloud SDK-ի միջոցով: Գործողությունն ավարտվելուց հետո ելքը պահվում է TXT ձևաչափով:
PDF-ից TXT փոխակերպման API
Aspose.PDF Cloud SDK Java-ի համար-ը մեր մրցանակակիր REST API լուծումն է, որն առաջարկում է PDF-ը ստեղծելու, խմբագրելու և փոխակերպելու JPG, XPS, HTML, DOCX և տարբեր այլ աջակցվող ձևաչափեր: Այժմ Java հավելվածում pdf տեքստի ճանաչման հնարավորությունները կիրառելու համար խնդրում ենք ավելացնել հետևյալ մանրամասները pom.xml maven build տիպի նախագծի մեջ:
<repositories>
<repository>
<id>aspose-cloud</id>
<name>artifact.aspose-cloud-releases</name>
<url>https://artifact.aspose.cloud/repo</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf-cloud</artifactId>
<version>21.11.0</version>
</dependency>
</dependencies>
SDK-ի տեղադրումից հետո հաջորդ կարևոր քայլը Aspose Cloud-ով անվճար հաշվի ստեղծումն է: Այսպիսով, խնդրում ենք մուտք գործել՝ օգտագործելով նորաստեղծ հաշիվ և փնտրել/ստեղծել Հաճախորդի ID-ն և Հաճախորդի գաղտնիքը Cloud Dashboard-ում: Այս մանրամասները պահանջվում են հաջորդ բաժիններում:
PDF դեպի տեքստ Java-ում
Խնդրում ենք հետևել ստորև տրված քայլերին, որպեսզի կատարեք PDF-ի տեքստի փոխարկումը Java Cloud SDK-ի միջոցով: Այսպիսով, հաջող փոխակերպումից հետո ստացված TXT ֆայլը պահվում է ամպային պահեստում:
- Սկզբում մենք պետք է ստեղծենք PdfApi օբյեկտ՝ որպես փաստարկներ տրամադրելով ClientID և Client գաղտնիքը
- Երկրորդ, բեռնեք մուտքագրված PDF ֆայլը, օգտագործելով File օրինակը
- Ներբեռնեք մուտքագրված PDF-ը ամպային պահեստում՝ օգտագործելով uploadFile(…) մեթոդը
- Ստեղծեք ամբողջ թվով փոփոխական, որը նշում է PDF-ի էջի համարը տեքստի արդյունահանման համար և կրկնակի օրինակներ, որոնք ցույց են տալիս էջի ուղղանկյուն հատվածը, որտեղից մենք պետք է հանենք տեքստային բովանդակությունը:
- Վերջապես զանգահարեք getPageText(…) մեթոդը՝ մուտքագրված PDF-ից տեքստային բովանդակություն ստանալու համար
try
{
// Ստացեք ClientID-ը և ClientSecret-ը https://dashboard.aspose.cloud/-ից
String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
// ստեղծել PdfApi-ի օրինակ
PdfApi pdfApi = new PdfApi(clientSecret,clientId);
// մուտքագրված PDF փաստաթղթի անվանումը
String inputFile = "marketing.pdf";
// կարդալ մուտքագրված PDF ֆայլի բովանդակությունը
File file = new File("//Users//"+inputFile);
// վերբեռնեք PDF-ը ամպային պահեստում
pdfApi.uploadFile("input.pdf", file, null);
// PDF-ի հատուկ էջ՝ փոխակերպման համար
int pageNumber =1;
// Ներքևի ձախ անկյունի X-կոորդինատը
Double LLX = 0.0;
// Y - ստորին ձախ անկյունի կոորդինատը:
Double LLY = 0.0;
// X - վերին աջ անկյունի կոորդինատը:
Double URX = 800.0;
// Y - վերին աջ անկյունի կոորդինատը:
Double URY = 800.0;
// զանգահարեք API՝ PDF-ը տեքստի փոխարկելու համար
TextRectsResponse response = pdfApi.getPageText(inputFile, pageNumber, LLX, LLY, URX, URY, null, null, true, null, "default");
// արդյունք TXT ֆայլի օրինակ
FileWriter myWriter = new FileWriter("filename.txt");
// Այժմ անցեք առանձին տեքստի առաջացման միջով, ստացեք տպման արդյունք վահանակում
for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
{
// գրել տեքստային բովանդակություն TXT ֆայլում
myWriter.write(response.getTextOccurrences().getList().get(counter).getText());
}
// փակեք TXT կարգավորիչը
myWriter.close();
System.out.println("Text successfully extracted from PDF !");
}catch(Exception ex)
{
System.out.println(ex);
}
Վերոհիշյալ օրինակում օգտագործված PDF ֆայլի նմուշը կարելի է ներբեռնել marketing.pdf և extracted.txt-ից:
Քաղեք տեքստ PDF-ից՝ օգտագործելով cURL հրամանները
REST API-ներին կարելի է հեշտությամբ մուտք գործել cURL հրամանների միջոցով, ուստի այս բաժնում մենք պատրաստվում ենք ուսումնասիրել այն տարբերակը, թե ինչպես կարող ենք տեքստային բովանդակությունը PDF-ից հանել՝ օգտագործելով cURL հրամանները: Այսպիսով, որպես նախապայման, մենք նախ պետք է գեներացնենք JWT մուտքի նշան (հիմնված հաճախորդի հավատարմագրերի վրա) հետևյալ հրամանը կատարելիս:
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
Երբ մենք ունենանք JWT նշանը, մենք պետք է կատարենք հետևյալ հրամանը՝ PDF փաստաթղթում տեքստի բոլոր դեպքերը հանելու համար:
curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H "accept: application/json" \
-H "authorization: Bearer <JWT Token>"
Եզրակացություն
Այս հոդվածը բացատրել է մանրամասները, թե ինչպես փոխարկել PDF-ը TXT-ի Java Cloud SDK-ի միջոցով: Միևնույն ժամանակ, մենք նաև ուսումնասիրել ենք cURL հրամանների միջոցով PDF-ից տեքստ հանելու տարբերակները: Այսպիսով, բազմաթիվ PDF էջերի միջև անցնելու ճկունությամբ մենք վերահսկում ենք, թե որտեղից պետք է արդյունահանենք բովանդակությունը: Մենք բարձր խորհուրդ ենք տալիս ուսումնասիրել արտադրանքը Documentation՝ ավելին իմանալու Java Cloud API-ի կողմից առաջարկվող այլ հետաքրքիր հատկությունների մասին: Նաև, քանի որ մեր բոլոր Cloud SDK-ները հրապարակված են MIT լիցենզիայի ներքո, այնպես որ կարող եք դիտարկել ներբեռնելու ամբողջական աղբյուր կոդը GitHub-ից և փոփոխել այն՝ ըստ ձեր պահանջների: Խնդիրների դեպքում կարող եք դիմել մեզ՝ արագ լուծման համար անվճար ապրանքի աջակցման ֆորումի միջոցով:
Առնչվող հոդվածներ
Խնդրում ենք այցելել հետևյալ հղումները՝ ավելին իմանալու համար.