
Оптичне розпізнавання символів — це розумний спосіб розпізнавання вмісту растрових зображень. Це навіть стає кориснішим, коли потрібно зберегти стару архівну літературу в цифровому форматі. Книги, яким тисячі років, можна легко зберегти, перетворивши їх у форму цифрових бібліотек за допомогою операцій OCR. Крім того, з роками ця потреба стала повсюдною. Отже, щоб виконати цю вимогу, або вам потрібно використовувати готове програмне забезпечення, або у випадку, якщо вам потрібно виконувати масові операції без втручання людини, найшвидшим і найпростішим способом є використання API програмування. У решті статті ми збираємося пояснити кроки, як виконати розпізнавання зображень за допомогою Python REST API.
OCR Online REST API
Aspose.OCR Cloud SDK для Python чудовий, коли справа стосується оптичного розпізнавання символів над растровими зображеннями (BMP, JPEG, GIF, PNG, TIFF).Виконуючи операції OCR, ви можете читати символи, а також інформацію про шрифт. Ви можете виконати оптичне розпізнавання всього зображення або його окремої частини, вказавши координати X і Y. Після завершення оптичного розпізнавання символів відповідь повертається у форматах XML або JSON, а витягнутий текст можна зберегти у форматах TXT, PDF і HOCR. Нижче наведено деякі функції високого рівня.
- Автоматична корекція перекосів
- Автоматичне та ручне визначення макета документа
- Розширена автоматизована попередня обробка зображень
- Підтримує кілька міжнародних мов
- Висока швидкість без апаратних ресурсів
Підтримувані мови
Окрім англійської мови, API повністю здатний розпізнавати текст французькою, німецькою, італійською, португальською та іспанською мовами.
Підтримувані формати файлів
Нижче наведено повний список форматів файлів, які наразі підтримуються REST API для операцій OCR.
.bmp, .dib, .jpeg, .jpg, .jpe, .jp2, .png, .webp, .pbm, .pgm, .ppm, .pxm, .pnm .pfm, .sr, .ras, .tiff, .tif, .exr, .hdr, .pic
OCR онлайн за допомогою Python
Наші API розроблено відповідно до архітектури REST, тому в цьому розділі ми досліджуватимемо перетворення зображення в текст за допомогою команд cURL. Ми розуміємо, що команди cURL — це гнучкий спосіб доступу до REST API через консоль. Тепер однією з передумов є створення маркера JWT. Щоб отримати додаткові пов’язані відомості, відвідайте Як отримати маркер JWT за допомогою ідентифікатора клієнта та секрету клієнта.
curl -v "https://api.aspose.cloud/oauth2/token" \-X POST \-d "grant_type=client_credentials&client_id=xxxxx-xxxx-xxx-xxxx-&client_secret=xxxxxxxxx" \-H "Content-Type: application/x-www-form-urlencoded" \ -H "Accept: application/json"
Отримавши маркер JWT, спробуйте скористатися наведеною нижче командою, щоб виконати операцію розпізнавання тексту англійською мовою на зображенні, розташованому в хмарному сховищі.
curl -X GET "https://api.aspose.cloud/v3.0/ocr/downsize.jpeg/recognize?language=1" -H "accept: application/json" -H "authorization: Bearer <JWT Token>"
Перетворення зображення в текст на локальному зображенні
У цьому розділі ми збираємося виконати операцію OCR над зображенням, завантаженим з локального диска
# Щоб отримати повні приклади та файли даних, перейдіть на сторінку https://github.com/aspose-ocr-cloud/aspose-ocr-cloud-python/
import os
import asposeocrcloud.api.storage_api
from asposeocrcloud.configuration import Configuration
from asposeocrcloud.api.ocr_api import OcrApi
from asposeocrcloud.models import OCRRect, OCRRegion, OCRRequestData, OCRRequestDataStorage, LanguageGroup
from asposeocrcloud.rest import ApiException
import json as json
class RecognizeFromContent(object):
def __init__(self):
# Налаштування клієнтів CAD і Storage API
with open("config.json") as f:
server_file_info = json.load(f)
config = Configuration( apiKey=server_file_info['AppKey'],
appSid=server_file_info['AppSid'])
self.ocr_api = OcrApi(config)
def recognize_text(self):
file_name = "5.png"
src = os.path.join(os.path.abspath("data/"), file_name)
try:
res = self.ocr_api.post_recognize_from_content(src) # type: asposeocrcloud.models.OcrResponse
return res.text
except ApiException as ex:
print("Exception")
print("Info: " + str(ex))
raise ex
obj=RecognizeFromContent()
print(obj.recognize_text())
Python OCR на зображенні з хмарного сховища
Ми збираємося дізнатися деталі про те, як ми можемо завантажити зображення з хмарного сховища та виконати OCR зображення за допомогою фрагмента коду Python.
# Щоб отримати повні приклади та файли даних, перейдіть на сторінку https://github.com/aspose-ocr-cloud/aspose-ocr-cloud-python/
import asposeocrcloud.api.storage_api
from asposeocrcloud.configuration import Configuration
from asposeocrcloud.api.ocr_api import OcrApi
from asposeocrcloud.models import OCRRect, OCRRegion, OCRRequestData, OCRRequestDataStorage, LanguageGroup
import json as json
class RecognizeFromStorage(object):
def __init__(self):
# Налаштування клієнтів CAD і Storage API
with open("config.json") as f:
server_file_info = json.load(f)
config = Configuration( apiKey=server_file_info['AppKey'],
appSid=server_file_info['AppSid'])
self.ocr_api = OcrApi(config)
self.storage_api= asposeocrcloud.api.storage_api.StorageApi(config)
def recognize_text(self):
self.storage_api.upload_file("5.png", r"data\5.png")
res = self.ocr_api.get_recognize_from_storage("5.png")
return res.text
obj=RecognizeFromStorage()
print(obj.recognize_text())
OCR зображення на URL
Якщо ви зіткнетеся з вимогою виконати оптичне розпізнавання зображень на зображенні, доступному за URL-адресою в Інтернеті, API повністю спроможний і підтримує цю функцію. Для виконання цієї вимоги можна використовувати метод postrecognizefromurl API.
# Щоб отримати повні приклади та файли даних, перейдіть на сторінку https://github.com/aspose-ocr-cloud/aspose-ocr-cloud-python/
import os
import asposeocrcloud.api.storage_api
from asposeocrcloud.configuration import Configuration
from asposeocrcloud.api.ocr_api import OcrApi
from asposeocrcloud.models import OCRRect, OCRRegion, OCRRequestData, OCRRequestDataStorage, LanguageGroup
from asposeocrcloud.rest import ApiException
import json as json
class RecognizeFromURL(object):
def __init__(self):
# Налаштування клієнтів CAD і Storage API
with open("config.json") as f:
server_file_info = json.load(f)
config = Configuration( apiKey=server_file_info['AppKey'],
appSid=server_file_info['AppSid'])
self.ocr_api = OcrApi(config)
def recognize_text(self):
url = "https://upload.wikimedia.org/wikipedia/commons/2/2f/Book_of_Abraham_FirstPage.png"
try:
res = self.ocr_api.post_recognize_from_url(url) # type: asposeocrcloud.models.OcrResponse
return res.text
except ApiException as ex:
print("Exception")
print("Info: " + str(ex))
raise ex
obj=RecognizeFromURL()
print(obj.recognize_text())
Висновок
У цій статті ми дізналися подробиці про те, як виконувати OCR онлайн за допомогою команди cURL, а також за допомогою фрагмента коду python. Оскільки наші Cloud SDK створено за ліцензією MIT, ви можете завантажити повний вихідний код із репозиторію GitHub. Це сховище також містить безкоштовні демонстраційні версії, і щоб виконати їх, виконайте наведені нижче дії.
- Перегляньте SDK або отримайте з pip(pip install aspose-ocr-cloud)
- Встановіть свій ідентифікатор клієнта та секрет клієнта
- Запустіть консоль Python Демо або UnitTests
Схожі статті
Ми настійно рекомендуємо вам перейти за наведеними нижче посиланнями, щоб дізнатися більше про: