PDF файлҳо дар интернет барои иттилоот ва мубодилаи маълумот ба таври васеъ истифода мешаванд. Онҳо хеле маъмуланд, зеро онҳо ҳангоми дидан дар ҳама гуна платформа вафодории ҳуҷҷатҳоро нигоҳ медоранд. Аммо, мо аз болои манбаъ назорат надорем ва баъзе файлҳо дар формати сканшуда мубодила мешаванд. Баъзан шумо тасвирро ҳамчун PDF сабт мекунед ва баъдтар ба шумо лозим меояд, ки мундариҷаро аз файл хориҷ кунед. Ҳамин тавр, роҳи ҳалли қобили амал иҷрои OCR ва истихроҷи матн аст. Аммо, пас аз амалиёти OCR, агар ба шумо файлро нигоҳ доштан лозим бошад, пас табдил додан ба формати PDF роҳи ҳалли қобили қабул аст. Дар ин мақола, мо қадамҳоро дар бораи чӣ гуна табдил додани PDF-и сканшуда ба Text PDF бо истифода аз Python муҳокима хоҳем кард.
API OCR PDF
Aspose.PDF Cloud SDK барои Python як бастаи атрофи Aspose.PDF Cloud аст. Он ба шумо имкон медиҳад, ки тамоми қобилиятҳои коркарди файлҳои PDF-ро дар дохили барномаи Python иҷро кунед. Файлҳои PDF-ро бе Adobe Acrobat ё ягон барномаи дигар идора кунед. Ҳамин тавр, барои истифодаи SDK, қадами аввал насби он аст ва он барои зеркашӣ аз PIP ва GitHub репозиторий дастрас аст. Акнун фармони зеринро дар терминал/фармон иҷро кунед, то версияи охирини SDK-ро дар система насб кунед.
pip install asposepdfcloud
MS Visual Studio
Шумо инчунин метавонед бевосита истинодро дар лоиҳаи Python-и худ дар доираи лоиҳаи Visual Studio илова кунед. Лутфан asposepdfcloud-ро ҳамчун баста дар зери равзанаи муҳити Python ҷустуҷӯ кунед. Лутфан қадамҳои дар тасвири зер рақамгузорӣшударо иҷро кунед, то раванди насбкуниро анҷом диҳед.
Aspose.Cloud панели
Азбаски API-ҳои мо танҳо барои шахсони ваколатдор дастрасанд, пас қадами навбатӣ эҷод кардани ҳисоб дар Aspose.Cloud аст. Агар шумо GitHub ё ҳисоби Google дошта бошед, танҳо сабти ном кунед ё тугмаи Эҷоди ҳисоби нав -ро клик кунед ва маълумоти заруриро пешниҳод кунед. Акнун ба панели идоракунӣ бо истифода аз маълумоти эътимоднома ворид шавед ва бахши Барномаҳо аз панели идоракуниро васеъ кунед ва ба тарафи қисмати Маълумотномаҳои муштарӣ ҳаракат кунед, то тафсилоти ID муштарӣ ва сирри муштариро бубинед.
Тасвири PDF ба PDF-и ҷустуҷӯшаванда дар Python
Лутфан қадамҳои дар поён овардашударо иҷро кунед, то амалиёти OCR дар ҳуҷҷати сканшудаи PDF иҷро кунед ва сипас онро ҳамчун ҷустуҷӯшаванда захира кунед (pdf-ро қобили ҷустуҷӯ кунед). Ин қадамҳо ба мо кӯмак мекунанд, ки OCR-и ройгони онлайнро бо истифода аз Python таҳия кунем.
- Аввалан, мо бояд як намунаи синфи ApiClient эҷод кунем ва ҳангоми пешниҳоди Сирри Client ID Client ҳамчун далелҳо
- Дуюм, як мисоли синфи PdfApi эҷод кунед, ки объекти ApiClient-ро ҳамчун далели вурудӣ мегирад
- Акнун усули putsearchabledocument(..)-и синфи PdfApi-ро даъват кунед, ки номи дохилшудаи PDF ва параметри ихтиёриро бо нишон додани забони муҳаррики OCR мегирад.
def ocrPDF():
try:
#Client credentials
client_secret = "406b404b2df649611e508bbcfcd2a77f"
client_id = "88d1cda8-b12c-4a80-b1ad-c85ac483c5c5"
#initialize PdfApi client instance using client credetials
pdf_api_client = asposepdfcloud.api_client.ApiClient(client_secret, client_id)
# ҳангоми интиқоли PdfApiClient ҳамчун аргумент намунаи PdfApi эҷод кунед
pdf_api = PdfApi(pdf_api_client)
#input PDF file name
input_file = 'image-based-pdf-sample.pdf'
# API-ро барои иҷрои OCR даъват кунед ва натиҷаро дар анбори абр захира кунед
response = pdf_api.put_searchable_document(name=input_file,lang='eng')
# паёмро дар консол чоп кунед (ихтиёрӣ)
print('Image PDF successfully converted to Text PDF !')
except ApiException as e:
print("Exception while calling PdfApi: {0}".format(e))
print("Code:" + str(e.code))
print("Message:" + e.message)
Дар тасвири боло, қисми чап файли воридшудаи PDF-и сканшударо ифода мекунад ва қисмат дар тарафи рост пешнамоиши PDF дар асоси матни натиҷаро нишон медиҳад. Намунаҳои файлҳои дар мисоли боло истифодашуда метавонанд аз image-based-pdf-sample.pdf ва OCR-Result.pdf бор карда шаванд.
OCR онлайн бо истифода аз Фармонҳои cURL
Ба API-ҳои REST инчунин тавассути фармонҳои cURL дастрас шудан мумкин аст ва азбаски API-ҳои абрии мо ба меъмории REST асос ёфтаанд, аз ин рӯ мо метавонем фармони cURL-ро барои иҷрои онлайни PDF OCR истифода барем. Аммо, пеш аз идома додани амалиёти табдилдиҳӣ, мо бояд дар асоси маълумоти шахсии муштарии шумо, ки дар панели Aspose.Cloud нишон дода шудааст, JSON Web Token (JWT) тавлид кунем. Ин ҳатмист, зеро API-ҳои мо танҳо барои корбарони сабтиномшуда дастрасанд. Лутфан фармони зеринро барои тавлиди аломати JWT иҷро кунед.
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=88d1cda8-b12c-4a80-b1ad-c85ac483c5c5&client_secret=406b404b2df649611e508bbcfcd2a77f" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
Вақте ки мо аломати JWT дорем, лутфан фармони зеринро иҷро кунед, то амалиёти OCR-ро иҷро кунед ва натиҷаро дар ҳамон як анбори абр захира кунед.
curl -v -X PUT "https://api.aspose.cloud/v3.0/pdf/image-based-pdf-sample.pdf/ocr" \
-H "accept: application/json" \
-H "authorization: Bearer <JWT Token>"
Хулоса
Дар ин мақола, мо қадамҳоро ба тасвири PDF то PDF-и ҷустуҷӯшаванда бо истифода аз порчаи рамзи Python муҳокима кардем. Мо инчунин тафсилотро дар бораи чӣ гуна иҷро кардани OCR Online бо истифода аз фармонҳои cURL омӯхтаем. Азбаски SDK-ҳои абрии мо таҳти литсензияи MIT таҳия шудаанд, шумо метавонед пораи пурраи кодро аз GitHub зеркашӣ кунед ва мувофиқи талаботи худ навсозӣ кунед. Мо ба шумо тавсия медиҳем, ки Роҳнамои таҳиягарон-ро омӯзед, то дар бораи дигар хусусиятҳои ҷолибе, ки ҳоло аз ҷониби Cloud API пешниҳод карда мешаванд, маълумоти бештар гиред.
Агар шумо ягон саволе дошта бошед ё ҳангоми истифодаи API-ҳои мо бо ягон мушкилот рӯ ба рӯ шавед, лутфан бо мо тавассути форуми ройгони дастгирии муштариён тамос гиред.
Мақолаҳои марбут
Мо инчунин тавсия медиҳем, ки мақолаҳои зеринро омӯзед, то дар бораи он маълумоти бештар гиред