Thực hiện OCR trực tuyến. Chuyển đổi hình ảnh thành văn bản bằng Python SDK

Nhận dạng ký tự quang học là một cách thông minh để nhận dạng nội dung trên hình ảnh raster. Nó thậm chí còn hữu ích hơn khi bạn cần bảo quản tài liệu lưu trữ cũ ở định dạng kỹ thuật số. Những cuốn sách hàng nghìn năm tuổi có thể dễ dàng được bảo quản bằng cách chuyển đổi chúng thành dạng thư viện kỹ thuật số bằng cách sử dụng các hoạt động OCR. Ngoài ra, trong những năm qua, nhu cầu này đã trở nên phổ biến. Vì vậy, để đáp ứng yêu cầu này, bạn cần sử dụng một số phần mềm có sẵn hoặc trong trường hợp bạn cần thực hiện các hoạt động hàng loạt mà không cần sự can thiệp của con người, cách nhanh chóng và dễ dàng nhất là sử dụng API lập trình. Trong phần còn lại của bài viết, chúng tôi sẽ giải thích các bước về cách thực hiện OCR trên hình ảnh bằng Python REST API.

OCR trực tuyến REST API
- Ngôn ngữ được hỗ trợ
- Định dạng tập tin được hỗ trợ
OCR trực tuyến sử dụng Python

OCR trực tuyến REST API

Aspose.OCR Cloud SDK for Python rất đáng chú ý khi nói đến nhận dạng ký tự quang học trên hình ảnh raster (BMP, JPEG, GIF, PNG, TIFF).Khi thực hiện các thao tác OCR, nó cho phép bạn đọc các ký tự cũng như thông tin phông chữ. Bạn có thể thực hiện OCR trên toàn bộ hình ảnh hoặc một phần cụ thể trong khi cung cấp tọa độ X và Y. Sau khi Nhận dạng ký tự quang học hoàn tất, phản hồi được trả về ở định dạng XML hoặc JSON và văn bản đã trích xuất có thể được lưu vào các định dạng TXT, PDF và HOCR. Dưới đây là một số tính năng cấp cao.

Tự động hiệu chỉnh độ lệch
Phát hiện bố cục tài liệu tự động và thủ công
Xử lý hình ảnh tự động nâng cao
Hỗ trợ nhiều ngôn ngữ quốc tế
Tốc độ cao mà không cần tài nguyên phần cứng

Ngôn ngữ được hỗ trợ

Cùng với tiếng Anh, API hoàn toàn có khả năng nhận dạng văn bản bằng tiếng Pháp, Đức, Ý, Bồ Đào Nha và Tây Ban Nha.

Định dạng tập tin được hỗ trợ

Dưới đây là danh sách đầy đủ các định dạng tệp hiện được REST API hỗ trợ cho hoạt động OCR.

.bmp, .dib, .jpeg, .jpg, .jpe, .jp2, .png, .webp, .pbm, .pgm, .ppm, .pxm, .pnm .pfm, .sr, .ras, .tiff, .tif, .exr, .hdr, .pic

OCR trực tuyến sử dụng Python

API của chúng tôi được phát triển theo kiến trúc REST, vì vậy trong phần này, chúng tôi sẽ khám phá việc chuyển đổi Hình ảnh thành Văn bản bằng lệnh cURL. Chúng tôi hiểu rằng lệnh cURL là cách linh hoạt để truy cập API REST thông qua bảng điều khiển. Bây giờ, một trong những điều kiện tiên quyết là tạo mã thông báo JWT. Để biết thêm thông tin chi tiết liên quan, vui lòng truy cập Cách lấy mã thông báo JWT bằng ID máy khách và Bí mật máy khách.

curl -v "https://api.aspose.cloud/oauth2/token" \-X POST \-d "grant_type=client_credentials&client_id=xxxxx-xxxx-xxx-xxxx-&client_secret=xxxxxxxxx" \-H "Content-Type: application/x-www-form-urlencoded" \ -H "Accept: application/json"

Sau khi có mã thông báo JWT, vui lòng thử sử dụng lệnh sau để thực hiện thao tác OCR trên hình ảnh nằm trên bộ nhớ đám mây, có chứa văn bản tiếng Anh.

curl -X GET "https://api.aspose.cloud/v3.0/ocr/downsize.jpeg/recognize?language=1" -H "accept: application/json" -H "authorization: Bearer <JWT Token>"

Chuyển đổi hình ảnh sang văn bản trên hình ảnh cục bộ

Trong phần này, chúng ta sẽ thực hiện thao tác OCR trên hình ảnh được tải từ ổ đĩa cục bộ

# Để biết ví dụ đầy đủ và tệp dữ liệu, vui lòng truy cập https://github.com/aspose-ocr-cloud/aspose-ocr-cloud-python/
import os
import asposeocrcloud.api.storage_api
from asposeocrcloud.configuration import Configuration
from asposeocrcloud.api.ocr_api import OcrApi
from asposeocrcloud.models import OCRRect, OCRRegion, OCRRequestData, OCRRequestDataStorage, LanguageGroup
from asposeocrcloud.rest import ApiException

import json as json

class  RecognizeFromContent(object):

  def __init__(self):

      # Thiết lập máy khách CAD và API lưu trữ 
      with open("config.json") as f:
          server_file_info = json.load(f)


      config = Configuration( apiKey=server_file_info['AppKey'],
                              appSid=server_file_info['AppSid'])      
      self.ocr_api = OcrApi(config)

  def recognize_text(self):
      file_name = "5.png"
      src = os.path.join(os.path.abspath("data/"), file_name)
      try:

          res = self.ocr_api.post_recognize_from_content(src)  # type: asposeocrcloud.models.OcrResponse
          return res.text

      except ApiException as ex:
          print("Exception")
          print("Info: " + str(ex))
          raise ex

obj=RecognizeFromContent()
print(obj.recognize_text())

Python OCR trên hình ảnh từ Cloud Storage

Chúng ta sẽ tìm hiểu chi tiết về cách tải hình ảnh từ bộ nhớ đám mây và thực hiện OCR hình ảnh bằng đoạn mã Python.

# Để biết ví dụ đầy đủ và tệp dữ liệu, vui lòng truy cập https://github.com/aspose-ocr-cloud/aspose-ocr-cloud-python/
import asposeocrcloud.api.storage_api
from asposeocrcloud.configuration import Configuration
from asposeocrcloud.api.ocr_api import OcrApi
from asposeocrcloud.models import OCRRect, OCRRegion, OCRRequestData, OCRRequestDataStorage, LanguageGroup

import json as json

class  RecognizeFromStorage(object):

    def __init__(self):

        # Thiết lập máy khách CAD và API lưu trữ 
        with open("config.json") as f:
            server_file_info = json.load(f)
        config = Configuration( apiKey=server_file_info['AppKey'],
                                appSid=server_file_info['AppSid'])      
        self.ocr_api = OcrApi(config)
        self.storage_api= asposeocrcloud.api.storage_api.StorageApi(config)

    def recognize_text(self):
        self.storage_api.upload_file("5.png", r"data\5.png")
        res = self.ocr_api.get_recognize_from_storage("5.png")
        return res.text

obj=RecognizeFromStorage()
print(obj.recognize_text())

OCR hình ảnh trên URL

Trong trường hợp bạn gặp phải yêu cầu thực hiện Nhận dạng hình ảnh quang học trên hình ảnh có sẵn trên URL web, API có đầy đủ khả năng và hỗ trợ tính năng này. Phương thức postrecognizefromurl của API có thể được sử dụng để thực hiện yêu cầu này.

# Để biết ví dụ đầy đủ và tệp dữ liệu, vui lòng truy cập https://github.com/aspose-ocr-cloud/aspose-ocr-cloud-python/
import os
import asposeocrcloud.api.storage_api
from asposeocrcloud.configuration import Configuration
from asposeocrcloud.api.ocr_api import OcrApi
from asposeocrcloud.models import OCRRect, OCRRegion, OCRRequestData, OCRRequestDataStorage, LanguageGroup
from asposeocrcloud.rest import ApiException

import json as json

class  RecognizeFromURL(object):

    def __init__(self):
       
        # Thiết lập máy khách CAD và API lưu trữ 
        with open("config.json") as f:
            server_file_info = json.load(f)        
        config = Configuration( apiKey=server_file_info['AppKey'],
                                appSid=server_file_info['AppSid'])      
        self.ocr_api = OcrApi(config)  
         
    def recognize_text(self):
        url = "https://upload.wikimedia.org/wikipedia/commons/2/2f/Book_of_Abraham_FirstPage.png"
        try:
            res = self.ocr_api.post_recognize_from_url(url)  # type: asposeocrcloud.models.OcrResponse
            return res.text

        except ApiException as ex:
            print("Exception")
            print("Info: " + str(ex))
            raise ex
                   
obj=RecognizeFromURL()
print(obj.recognize_text())

Phần kết luận

Trong bài viết này, chúng ta đã tìm hiểu chi tiết về cách thực hiện OCR trực tuyến bằng lệnh cURL cũng như thông qua đoạn mã python. Vì Cloud SDK của chúng tôi được xây dựng theo giấy phép MIT, nên bạn có thể cân nhắc tải xuống toàn bộ mã nguồn từ kho lưu trữ GitHub. Kho lưu trữ này cũng đi kèm với các bản demo miễn phí và để thực hiện chúng, vui lòng làm theo các bước dưới đây.

Kiểm tra SDK hoặc lấy từ pip(pip cài đặt aspose-ocr-cloud)
Thiết lập ID khách hàng và Bí mật khách hàng của bạn
Chạy bảng điều khiển Python Demo hoặc UnitTests

Bài viết liên quan

Chúng tôi thực sự khuyên bạn vui lòng truy cập các liên kết sau để tìm hiểu thêm về:

OCR trực tuyến REST API#

Ngôn ngữ được hỗ trợ#

Định dạng tập tin được hỗ trợ#

OCR trực tuyến sử dụng Python#

Chuyển đổi hình ảnh sang văn bản trên hình ảnh cục bộ#

Python OCR trên hình ảnh từ Cloud Storage#

OCR hình ảnh trên URL#

Phần kết luận#

Bài viết liên quan#