PDF ֆայլերը լայնորեն օգտագործվում են ինտերնետում տեղեկատվության և տվյալների փոխանակման համար: Նրանք բավականին տարածված են, քանի որ պահպանում են փաստաթղթերի հավատարմությունը ցանկացած հարթակում դիտելիս: Այնուամենայնիվ, մենք աղբյուրի նկատմամբ վերահսկողություն չունենք, և որոշ ֆայլեր համօգտագործվում են սկանավորված ձևաչափով: Երբեմն դուք պատկեր եք նկարում որպես PDF, իսկ ավելի ուշ ձեզ անհրաժեշտ է ֆայլից հանել բովանդակությունը: Այսպիսով, կենսունակ լուծում է OCR գործողություն կատարելը և տեքստը հանելը: Այնուամենայնիվ, OCR գործողությունից հետո, եթե անհրաժեշտ է պահպանել ֆայլը, ապա PDF ձևաչափի փոխարկումը կենսունակ լուծում է: Այս հոդվածում մենք պատրաստվում ենք քննարկել այն քայլերը, թե ինչպես փոխարկել սկանավորված PDF-ը տեքստային PDF-ի՝ Python-ի միջոցով:
OCR PDF API
Aspose.PDF Cloud SDK-ի համար Python-ը փաթաթված է Aspose.PDF Cloud-ի շուրջ: Այն թույլ է տալիս կատարել PDF ֆայլերի մշակման բոլոր հնարավորությունները Python հավելվածում: Շահարկել PDF ֆայլերը առանց Adobe Acrobat-ի կամ որևէ այլ հավելվածի: Այսպիսով, SDK-ն օգտագործելու համար առաջին քայլը դրա տեղադրումն է, և այն հասանելի է ներբեռնման համար PIP և GitHub պահոցից: Այժմ տերմինալի/հրամանի տողում կատարեք հետևյալ հրամանը՝ SDK-ի վերջին տարբերակը համակարգում տեղադրելու համար:
pip install asposepdfcloud
MS Visual Studio
Կարող եք նաև ուղղակիորեն հղումը ավելացնել ձեր Python նախագծում Visual Studio նախագծի շրջանակներում: Խնդրում ենք որոնել asposepdfcloud որպես փաթեթ Python միջավայրի պատուհանի տակ: Տեղադրման գործընթացը ավարտելու համար խնդրում ենք հետևել ստորև նկարում թվարկված քայլերին:
Aspose.Cloud Dashboard
Քանի որ մեր API-ները հասանելի են միայն լիազորված անձանց համար, ուստի հաջորդ քայլը հաշիվ ստեղծելն է Aspose.Cloud dashboard-ում: Եթե ունեք GitHub կամ Google հաշիվ, պարզապես գրանցվեք կամ սեղմեք Ստեղծել նոր հաշիվ կոճակը և տրամադրեք անհրաժեշտ տեղեկատվությունը: Այժմ մուտք գործեք վահանակ՝ օգտագործելով հավատարմագրերը և ընդլայնեք «Հավելվածներ» բաժինը վահանակից և ոլորեք ներքև դեպի Հաճախորդի հավատարմագրերի բաժինը՝ Հաճախորդի ID-ն և Հաճախորդի Գաղտնի մանրամասները տեսնելու համար:
Պատկերի PDF-ը Python-ում որոնելի PDF-ի համար
Խնդրում ենք հետևել ստորև տրված քայլերին՝ սկանավորված PDF փաստաթղթի վրա OCR գործողություն կատարելու համար, այնուհետև պահել այն որպես որոնելի (pdf-ը որոնելի դարձնել): Այս քայլերն օգնում են մեզ զարգացնել անվճար առցանց OCR՝ օգտագործելով Python-ը:
- Նախ, մենք պետք է ստեղծենք ApiClient դասի օրինակ՝ որպես փաստարկներ տրամադրելով Client ID Client Secret-ը:
- Երկրորդ, ստեղծեք PdfApi դասի օրինակ, որն ընդունում է ApiClient օբյեկտը որպես մուտքային փաստարկ
- Այժմ զանգահարեք PdfApi դասի putsearchabledocument(..) մեթոդը, որն ընդունում է մուտքագրված PDF անունը և կամընտիր պարամետր, որը ցույց է տալիս OCR շարժիչի լեզուն:
def ocrPDF():
try:
#Client credentials
client_secret = "406b404b2df649611e508bbcfcd2a77f"
client_id = "88d1cda8-b12c-4a80-b1ad-c85ac483c5c5"
#initialize PdfApi client instance using client credetials
pdf_api_client = asposepdfcloud.api_client.ApiClient(client_secret, client_id)
# ստեղծել PdfApi օրինակ՝ որպես փաստարկ ներկայացնելով PdfApiClient-ը
pdf_api = PdfApi(pdf_api_client)
#input PDF file name
input_file = 'image-based-pdf-sample.pdf'
# զանգահարեք API՝ OCR գործողություն կատարելու և ելքը պահելու ամպային պահեստում
response = pdf_api.put_searchable_document(name=input_file,lang='eng')
# տպել հաղորդագրությունը վահանակում (ըստ ցանկության)
print('Image PDF successfully converted to Text PDF !')
except ApiException as e:
print("Exception while calling PdfApi: {0}".format(e))
print("Code:" + str(e.code))
print("Message:" + e.message)
Վերևում գտնվող պատկերում ձախ մասը ցույց է տալիս մուտքագրված սկանավորված PDF ֆայլը, իսկ աջ կողմում գտնվող հատվածը ցույց է տալիս ստացված տեքստի վրա հիմնված PDF-ի նախադիտումը: Վերոնշյալ օրինակում օգտագործված նմուշային ֆայլերը կարելի է ներբեռնել image-based-pdf-sample.pdf և OCR-Result.pdf-ից:
OCR առցանց՝ օգտագործելով cURL հրամանները
REST API-ներին կարելի է մուտք գործել նաև cURL հրամանների միջոցով, և քանի որ մեր Cloud API-ները հիմնված են REST ճարտարապետության վրա, այնպես որ մենք կարող ենք նաև օգտագործել cURL հրամանը՝ PDF OCR առցանց կատարելու համար: Այնուամենայնիվ, նախքան փոխակերպման գործողությունը շարունակելը, մենք պետք է ստեղծենք JSON Web Token (JWT)՝ հիմնված Aspose.Cloud վահանակի վրա նշված ձեր անհատական հաճախորդի հավատարմագրերի վրա: Դա պարտադիր է, քանի որ մեր API-ները հասանելի են միայն գրանցված օգտվողներին: Խնդրում ենք կատարել հետևյալ հրամանը՝ JWT նշանը ստեղծելու համար:
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=88d1cda8-b12c-4a80-b1ad-c85ac483c5c5&client_secret=406b404b2df649611e508bbcfcd2a77f" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
Երբ մենք ունենք JWT նշանը, խնդրում ենք կատարել հետևյալ հրամանը՝ OCR գործողությունը կատարելու և ելքը նույն ամպային պահեստում պահպանելու համար:
curl -v -X PUT "https://api.aspose.cloud/v3.0/pdf/image-based-pdf-sample.pdf/ocr" \
-H "accept: application/json" \
-H "authorization: Bearer <JWT Token>"
Եզրակացություն
Այս հոդվածում մենք քննարկել ենք Պատկերի PDF-ից դեպի Որոնելի PDF-ի քայլերը՝ օգտագործելով Python կոդի հատվածը: Մենք նաև ուսումնասիրել ենք մանրամասները, թե ինչպես կատարել OCR Online՝ օգտագործելով cURL հրամանները: Քանի որ մեր ամպային SDK-ները մշակված են MIT լիցենզիայի ներքո, այնպես որ դուք կարող եք ներբեռնել կոդի ամբողջական հատվածը GitHub-ից և թարմացնել այն՝ ըստ ձեր պահանջների: Մենք խորհուրդ ենք տալիս ուսումնասիրել Developer Guide՝ ավելին իմանալու համար Cloud API-ի կողմից ներկայումս առաջարկվող այլ հետաքրքիր գործառույթների մասին:
Այն դեպքում, երբ դուք ունեք որևէ առնչվող հարցում կամ բախվում եք որևէ խնդրի մեր API-ներն օգտագործելիս, խնդրում ենք ազատ զգալ կապվել մեզ հետ [անվճար հաճախորդների աջակցության ֆորումի] միջոցով 13:
Առնչվող հոդվածներ
Մենք նաև առաջարկում ենք անցնել հետևյալ հոդվածները՝ ավելին իմանալու համար