Մենք բոլորս գիտենք, որ PDF ֆայլերը ամենակարևոր և լայնորեն օգտագործվող թվային ձևաչափերից են, որոնք օգտագործվում են փաստաթղթերը հուսալիորեն ներկայացնելու և փոխանակելու համար՝ անկախ ծրագրաշարից, սարքաշարից կամ օպերացիոն համակարգից: Այնուամենայնիվ, որոշ սցենարներում մեզ կարող է հետաքրքրել մեծ PDF ֆայլերից քաղվածք ստանալը: Կամ, մենք կարող ենք պահանջ ունենալ PDF-ը տեքստի մեջ պահել առցանց: Այսպիսով, այս հոդվածում մենք պատրաստվում ենք ուսումնասիրել մանրամասները, թե ինչպես զարգացնել PDF-ի տեքստ փոխարկիչը Java REST API-ի միջոցով:
PDF գեներատոր API
Ստացեք լծակներ PDF փաստաթղթեր ստեղծելու համար՝ օգտագործելով ձևանմուշներ կամ զրոյից՝ օգտագործելով մեր REST API-ն: Միևնույն ժամանակ, API-ն նաև հնարավորություն է տալիս խմբագրել, ինչպես նաև վերափոխել PDF ֆայլերը այլ աջակցվող ձևաչափերի: Կարող եք նաև օգտվել PDF-ից տեքստ հանելու, PDF ֆայլերի վերծանման և միաձուլման առավելություններից՝ օգտագործելով Java Cloud SDK: Այժմ, Aspose.PDF Cloud SDK-ն Java-ի համար օգտագործելու համար մենք պետք է դրա հղումը ավելացնենք մեր Java հավելվածում՝ ներառելով հետևյալ մանրամասները pom.xml-ում (maven build type project):
<repositories>
<repository>
<id>aspose-cloud</id>
<name>artifact.aspose-cloud-releases</name>
<url>http://artifact.aspose.cloud/repo</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-cloud-pdf</artifactId>
<version>21.11.0</version>
<scope>compile</scope>
</dependency>
</dependencies>
Տեղադրումից հետո մենք պետք է անվճար հաշիվ ստեղծենք Cloud Dashboard-ի միջոցով և ստանանք անհատականացված հաճախորդի հավատարմագրերը:
Քաղեք տեքստ PDF-ից Java-ի միջոցով
Եկեք ուսումնասիրենք մանրամասները՝ PDF-ից տեքստ հանելու համար՝ օգտագործելով Java cloud SDK-ն: Այս օրինակում մենք պատրաստվում ենք օգտագործել հետևյալ մուտքագրումը PdfWithTable.pdf ֆայլ։
// Լրացուցիչ օրինակների համար այցելեք https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-java/tree/master/Examples/src/main/java/com/aspose/asposecloudpdf/examples
try
{
// Ստացեք ClientID-ը և ClientSecret-ը https://dashboard.aspose.cloud/-ից
String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
// ստեղծել PdfApi-ի օրինակ
PdfApi pdfApi = new PdfApi(clientSecret,clientId);
// մուտքագրված PDF փաստաթղթի անվանումը
String name = "PdfWithTable.pdf";
// կարդալ մուտքագրված PDF ֆայլի բովանդակությունը
File file = new File(name);
// վերբեռնեք PDF-ը ամպային պահեստում
pdfApi.uploadFile("input.pdf", file, null);
// Ներքևի ձախ անկյունի X-կոորդինատը
Double LLX = 500.0;
// Y - ստորին ձախ անկյունի կոորդինատը:
Double LLY = 500.0;
// X - վերին աջ անկյունի կոորդինատը:
Double URX = 800.0;
// Y - վերին աջ անկյունի կոորդինատը:
Double URY = 800.0;
// զանգահարեք API՝ PDF-ը տեքստի փոխարկելու համար
TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);
// Անցնել տեքստի առանձին առաջացման միջով
for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
{
// գրել տեքստային բովանդակություն վահանակում
System.out.println(response.getTextOccurrences().getList().get(counter).getText());
}
System.out.println("Extract Text from PDF successful !");
}catch(Exception ex)
{
System.out.println(ex);
}
Հիմա եկեք փորձենք հասկանալ վերը նշված կոդի հատվածը.
PdfApi pdfApi = new PdfApi(clientSecret,clientId);
Ստեղծեք PdfApi-ի օրինակ՝ որպես փաստարկներ փոխանցելով անհատականացված հավատարմագրերը:
File file = new File(name);
pdfApi.uploadFile("input.pdf", file, null);
Կարդացեք մուտքագրված PDF-ը File օբյեկտի միջոցով և վերբեռնեք այն ամպային պահեստում՝ օգտագործելով PdfAPi դասի uploadFile(…) մեթոդը: Խնդրում ենք նկատի ունենալ, որ ֆայլը վերբեռնված է uploadFile մեթոդով օգտագործված անունով:
TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);
Այժմ զանգահարեք getText(..) մեթոդը, որտեղ մենք նշում ենք մուտքագրված PDF ֆայլի անվանումը, ուղղանկյուն չափերը էջի վրա, որտեղից մենք պետք է հանենք տեքստային բովանդակությունը և արդյունահանված բովանդակությունը վերադարձնենք TextRectsResponse օբյեկտ:
response.getTextOccurrences().getList().get(counter).getText()
Վերջապես, արդյունահանված տեքստի բովանդակությունը տպելու համար մենք պատրաստվում ենք կրկնել բոլոր TextOccurances-ը և ցուցադրել դրանք վահանակում:
PDF դեպի տեքստ՝ օգտագործելով cURL հրամանները
Բացի Java կոդի հատվածից, մենք կարող ենք նաև կատարել pdftotext գործողություն՝ օգտագործելով cURL հրամանները: Այժմ այս մոտեցման նախապայմաններից մեկը JWT մուտքի նշան ստեղծելն է (հիմնված հաճախորդի հավատարմագրերի վրա)՝ օգտագործելով հետևյալ հրամանը։
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
Երբ JWT-ն ստեղծվի, խնդրում ենք կատարել հետևյալ հրամանը՝ ամպային պահեստում արդեն հասանելի PDF ֆայլից տեքստ հանելու համար:
curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H "accept: application/json" \
-H "authorization: Bearer <JWT Token>"
Արագ հուշում
Փնտրում եք PDF տեքստային անվճար հավելված: Խնդրում ենք փորձել օգտագործել մեր [PDF Parser] (https://products.aspose.app/pdf/parser):
Եզրափակիչ դիտողություններ
Եզրափակելով, Java-ի միջոցով PDF ֆայլերից տեքստ հանելը կարող է հզոր լուծում լինել նրանց համար, ովքեր ցանկանում են ավտոմատացնել իրենց տվյալների մշակման և վերլուծության կարիքները: Այս ուղեցույցի օգնությամբ դուք այժմ ունեք ամուր հիմք, որի վրա պետք է կառուցեք և կարող եք հեշտությամբ կիրառել ձեր սեփական Java-ի վրա հիմնված լուծումը PDF փաստաթղթերից տեքստի արդյունահանման համար: Անկախ նրանից, թե դուք ցանկանում եք տեքստ հանել տվյալների վերլուծության, մեքենայական ուսուցման կամ որևէ այլ նպատակի համար, Java-ն ապահովում է ճկուն և հուսալի հարթակ ձեր կարիքների համար: Այսպիսով, առաջ գնացեք և փորձարկեք ձեր նոր ձեռք բերած հմտությունները:
Եթե դուք հետաքրքրված եք API-ի կողմից առաջարկվող այլ հետաքրքիր առանձնահատկություններով, խնդրում ենք ուսումնասիրել Product Documentation: Ի վերջո, եթե API-ն օգտագործելիս որևէ խնդրի եք հանդիպում, կամ որևէ առնչվող հարցում ունեք, խնդրում ենք ազատ զգալ կապվել մեզ հետ անվճար Product Support Forum միջոցով:
Առնչվող հոդվածներ
Խնդրում ենք այցելել հետևյալ հղումները՝ ավելին իմանալու համար.