ПДФ ОЦР

ПДФ датотеке се нашироко користе на интернету за размену информација и података. Они су прилично популарни јер одржавају верност докумената при гледању на било којој платформи. Међутим, ми немамо контролу над извором и неке датотеке се деле у скенираном формату. Понекад снимите слику као ПДФ, а касније морате да издвојите садржај из датотеке. Дакле, одрживо решење је да извршите ОЦР операцију и издвојите текст. Међутим, након ОЦР операције, ако треба да сачувате датотеку, онда је конверзија у ПДФ формат одрживо решење. У овом чланку ћемо разговарати о корацима како да конвертујете скенирани ПДФ у текстуални ПДФ користећи Питхон.

ОЦР ПДФ АПИ

Аспосе.ПДФ Цлоуд СДК за Питхон је омотач око Аспосе.ПДФ Цлоуд. Омогућава вам да извршите све могућности обраде ПДФ датотека у оквиру Питхон апликације. Манипулишите ПДФ датотекама без Адобе Ацробат-а или било које друге апликације. Дакле, да бисте користили СДК, први корак је његова инсталација, а доступан је за преузимање преко ПИП и ГитХуб спремишта. Сада извршите следећу команду на терминалу/командној линији да бисте инсталирали најновију верзију СДК-а на систем.

 pip install asposepdfcloud

МС Висуал Студио

Такође можете директно додати референцу у свој Питхон пројекат у оквиру Висуал Студио пројекта. Претражите аспосепдфцлоуд као пакет у прозору окружења Питхон. Пратите кораке нумерисане на слици испод да бисте довршили процес инсталације.

Аспосе.ПДФ Цлоуд Питхон

Слика 1:- Аспосе.ПДФ Цлоуд СДК за Питхон пакет.

Аспосе.Цлоуд Дасхбоард

Пошто су наши АПИ-ји доступни само овлашћеним лицима, следећи корак је креирање налога на Аспосе.Цлоуд контролној табли. Ако имате ГитХуб или Гоогле налог, једноставно се пријавите или кликните на дугме Направи нови налог и унесите потребне информације. Сада се пријавите на контролну таблу користећи акредитиве и проширите одељак Апликације са контролне табле и померите се надоле према одељку Акредитиви клијента да бисте видели детаље о ИД-у клијента и Тајни клијента.

Цлиент Црентиалс

Слика 2: - Клијентски акредитиви на Аспосе.Цлоуд контролној табли.

Слика ПДФ у ПДФ који се може претраживати у Питхон-у

Пратите доле наведене кораке да бисте извршили ОЦР операцију на скенираном ПДФ документу, а затим га сачувајте као претражив (учините пдф претражив). Ови кораци нам помажу да развијемо бесплатни онлајн ОЦР користећи Питхон.

  • Прво, морамо да креирамо инстанцу класе АпиЦлиент док пружамо Цлиент ИД Цлиент Сецрет као аргументе
  • Друго, креирајте инстанцу класе ПдфАпи која узима АпиЦлиент објекат као улазни аргумент
  • Сада позовите методу путсеарцхабледоцумент(..) класе ПдфАпи која узима улазно име ПДФ-а и опциони параметар који указује на језик ОЦР машине.
def ocrPDF():
    try:
        #Client credentials
        client_secret = "406b404b2df649611e508bbcfcd2a77f"
        client_id = "88d1cda8-b12c-4a80-b1ad-c85ac483c5c5"

        #initialize PdfApi client instance using client credetials
        pdf_api_client = asposepdfcloud.api_client.ApiClient(client_secret, client_id)

        # креирајте ПдфАпи инстанцу док прослеђујете ПдфАпиЦлиент као аргумент
        pdf_api = PdfApi(pdf_api_client)

        #input PDF file name
        input_file = 'image-based-pdf-sample.pdf'

        # позовите АПИ да извршите ОЦР операцију и сачувате излаз у складишту у облаку
        response = pdf_api.put_searchable_document(name=input_file,lang='eng')

        # штампај поруку у конзоли (опционо)
        print('Image PDF successfully converted to Text PDF !')    
    except ApiException as e:
        print("Exception while calling PdfApi: {0}".format(e))
        print("Code:" + str(e.code))
        print("Message:" + e.message)
ПДФ ОЦР преглед

Слика 3: - Преглед ПДФ ОЦР операције.

На горњој слици, леви део означава улазну скенирану ПДФ датотеку, а део на десној страни приказује преглед резултирајућег ПДФ-а заснованог на тексту. Примери датотека коришћених у горњем примеру могу се преузети са имаге-басед-пдф-сампле.пдф и ОЦР-Ресулт.пдф.

ОЦР на мрежи помоћу цУРЛ команди

РЕСТ АПИ-јима се такође може приступити преко цУРЛ команди и пошто су наши Цлоуд АПИ-ји засновани на РЕСТ архитектури, тако да можемо да користимо и команду цУРЛ за обављање ПДФ ОЦР-а на мрежи. Међутим, пре него што наставимо са операцијом конверзије, морамо да генеришемо ЈСОН веб токен (ЈВТ) на основу ваших индивидуалних акредитива клијента наведених на Аспосе.Цлоуд контролној табли. То је обавезно јер су наши АПИ-ји доступни само регистрованим корисницима. Извршите следећу команду да бисте генерисали ЈВТ токен.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=88d1cda8-b12c-4a80-b1ad-c85ac483c5c5&client_secret=406b404b2df649611e508bbcfcd2a77f" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Када добијемо ЈВТ токен, извршите следећу команду да бисте извршили ОЦР операцију и сачували излаз у истом складишту у облаку.

curl -v -X PUT "https://api.aspose.cloud/v3.0/pdf/image-based-pdf-sample.pdf/ocr" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>"

Закључак

У овом чланку смо разговарали о корацима за претварање ПДФ-а слике у ПДФ који се може претраживати користећи Питхон исјечак кода. Такође смо истражили детаље о томе како да извршите ОЦР на мрежи користећи цУРЛ команде. Пошто су наши пакети за развој софтвера у облаку развијени под МИТ лиценцом, тако да можете преузети комплетан исечак кода са ГитХуб и ажурирати га према вашим захтевима. Топло вам препоручујемо да истражите Водич за програмере да бисте сазнали више о другим узбудљивим функцијама које тренутно нуди Цлоуд АПИ.

У случају да имате било каква сродна питања или наиђете на било какве проблеме док користите наше АПИ-је, слободно нас контактирајте преко бесплатног форума корисничке подршке.

повезани чланци

Такође предлажемо да прођете кроз следеће чланке да бисте сазнали више о томе