OCR 온라인 수행. Python SDK를 사용하여 이미지를 텍스트로

광학 문자 인식은 래스터 이미지에서 콘텐츠를 인식하는 스마트한 방법입니다. 오래된 보관 문헌을 디지털 형식으로 보존해야 할 때 더욱 유용합니다. 수천 년 된 책은 OCR 작업을 사용하여 디지털 라이브러리 형태로 변환하여 쉽게 보존할 수 있습니다. 또한 수년에 걸쳐 이러한 필요성은 어디에나 존재하게 되었습니다. 따라서 이 요구 사항을 충족하려면 기본 소프트웨어를 사용해야 하거나 인간의 개입 없이 대량 작업을 수행해야 하는 경우 가장 빠르고 쉬운 방법은 프로그래밍 API를 사용하는 것입니다. 이 기사의 나머지 부분에서는 Python REST API를 사용하여 이미지에서 OCR을 수행하는 방법에 대한 단계를 설명합니다.

OCR 온라인 REST API
- 지원 언어
- 지원되는 파일 형식
파이썬을 사용한 OCR 온라인

OCR 온라인 REST API

Aspose.OCR for Python Cloud SDK는 래스터 이미지(BMP, JPEG, GIF, PNG, TIFF)에 대한 광학 문자 인식에 있어서 주목할 만합니다. OCR 작업을 수행할 때 문자와 글꼴 정보를 읽을 수 있습니다. X 및 Y 좌표를 제공하면서 전체 이미지 또는 특정 부분에서 OCR을 수행할 수 있습니다. 광학 문자 인식이 완료되면 응답이 XML 또는 JSON 형식으로 반환되고 추출된 텍스트는 TXT, PDF 및 HOCR 형식으로 저장할 수 있습니다. 아래에 몇 가지 고급 기능이 지정되어 있습니다.

자동 기울기 보정
자동 및 수동 문서 레이아웃 감지
고급 자동 이미지 사전 처리
다양한 국제 언어 지원
하드웨어 리소스 없이도 고속

지원 언어

이 API는 영어 외에도 프랑스어, 독일어, 이탈리아어, 포르투갈어, 스페인어 텍스트를 완벽하게 인식할 수 있습니다.

지원되는 파일 형식

아래에는 OCR 작업을 위한 REST API에서 현재 지원하는 파일 형식의 전체 목록이 나와 있습니다.

.bmp, .dib, .jpeg, .jpg, .jpe, .jp2, .png, .webp, .pbm, .pgm, .ppm, .pxm, .pnm .pfm, .sr, .ras, .tiff, .tif, .exr, .hdr, .pic

파이썬을 사용한 OCR 온라인

저희 API는 REST 아키텍처에 따라 개발되었으므로 이 섹션에서는 cURL 명령을 사용하여 이미지를 텍스트로 변환하는 방법을 살펴보겠습니다. cURL 명령은 콘솔을 통해 REST API에 액세스하는 유연한 방법이라는 것을 알고 있습니다. 이제 전제 조건 중 하나는 JWT 토큰을 생성하는 것입니다. 자세한 관련 내용은 클라이언트 ID와 클라이언트 비밀을 사용하여 JWT 토큰을 얻는 방법을 참조하세요.

curl -v "https://api.aspose.cloud/oauth2/token" \-X POST \-d "grant_type=client_credentials&client_id=xxxxx-xxxx-xxx-xxxx-&client_secret=xxxxxxxxx" \-H "Content-Type: application/x-www-form-urlencoded" \ -H "Accept: application/json"

JWT 토큰을 받으면 다음 명령을 사용하여 클라우드 저장소에 있는 영어 텍스트가 포함된 이미지에 OCR 작업을 수행해보세요.

curl -X GET "https://api.aspose.cloud/v3.0/ocr/downsize.jpeg/recognize?language=1" -H "accept: application/json" -H "authorization: Bearer <JWT Token>"

로컬 이미지에서 이미지를 텍스트로 변환

이 섹션에서는 로컬 드라이브에서 로드된 이미지에 대해 OCR 작업을 수행합니다.

# 전체 예제와 데이터 파일은 https://github.com/aspose-ocr-cloud/aspose-ocr-cloud-python/에서 확인하세요.
import os
import asposeocrcloud.api.storage_api
from asposeocrcloud.configuration import Configuration
from asposeocrcloud.api.ocr_api import OcrApi
from asposeocrcloud.models import OCRRect, OCRRegion, OCRRequestData, OCRRequestDataStorage, LanguageGroup
from asposeocrcloud.rest import ApiException

import json as json

class  RecognizeFromContent(object):

  def __init__(self):

      # CAD 및 Storage API 클라이언트 설정 
      with open("config.json") as f:
          server_file_info = json.load(f)


      config = Configuration( apiKey=server_file_info['AppKey'],
                              appSid=server_file_info['AppSid'])      
      self.ocr_api = OcrApi(config)

  def recognize_text(self):
      file_name = "5.png"
      src = os.path.join(os.path.abspath("data/"), file_name)
      try:

          res = self.ocr_api.post_recognize_from_content(src)  # type: asposeocrcloud.models.OcrResponse
          return res.text

      except ApiException as ex:
          print("Exception")
          print("Info: " + str(ex))
          raise ex

obj=RecognizeFromContent()
print(obj.recognize_text())

클라우드 스토리지의 이미지에 대한 Python OCR

Python 코드 조각을 사용하여 클라우드 저장소에서 이미지를 로드하고 이미지 OCR을 수행하는 방법에 대한 세부 정보를 알아보겠습니다.

# 전체 예제와 데이터 파일은 https://github.com/aspose-ocr-cloud/aspose-ocr-cloud-python/에서 확인하세요.
import asposeocrcloud.api.storage_api
from asposeocrcloud.configuration import Configuration
from asposeocrcloud.api.ocr_api import OcrApi
from asposeocrcloud.models import OCRRect, OCRRegion, OCRRequestData, OCRRequestDataStorage, LanguageGroup

import json as json

class  RecognizeFromStorage(object):

    def __init__(self):

        # CAD 및 Storage API 클라이언트 설정 
        with open("config.json") as f:
            server_file_info = json.load(f)
        config = Configuration( apiKey=server_file_info['AppKey'],
                                appSid=server_file_info['AppSid'])      
        self.ocr_api = OcrApi(config)
        self.storage_api= asposeocrcloud.api.storage_api.StorageApi(config)

    def recognize_text(self):
        self.storage_api.upload_file("5.png", r"data\5.png")
        res = self.ocr_api.get_recognize_from_storage("5.png")
        return res.text

obj=RecognizeFromStorage()
print(obj.recognize_text())

URL의 이미지 OCR

웹 URL에서 사용 가능한 이미지에 대해 광학 이미지 인식을 수행해야 하는 요구 사항이 있는 경우 API는 완벽하게 기능하며 이 기능을 지원합니다. API의 postrecognizefromurl 메서드를 사용하여 이 요구 사항을 달성할 수 있습니다.

# 전체 예제와 데이터 파일은 https://github.com/aspose-ocr-cloud/aspose-ocr-cloud-python/에서 확인하세요.
import os
import asposeocrcloud.api.storage_api
from asposeocrcloud.configuration import Configuration
from asposeocrcloud.api.ocr_api import OcrApi
from asposeocrcloud.models import OCRRect, OCRRegion, OCRRequestData, OCRRequestDataStorage, LanguageGroup
from asposeocrcloud.rest import ApiException

import json as json

class  RecognizeFromURL(object):

    def __init__(self):
       
        # CAD 및 Storage API 클라이언트 설정 
        with open("config.json") as f:
            server_file_info = json.load(f)        
        config = Configuration( apiKey=server_file_info['AppKey'],
                                appSid=server_file_info['AppSid'])      
        self.ocr_api = OcrApi(config)  
         
    def recognize_text(self):
        url = "https://upload.wikimedia.org/wikipedia/commons/2/2f/Book_of_Abraham_FirstPage.png"
        try:
            res = self.ocr_api.post_recognize_from_url(url)  # type: asposeocrcloud.models.OcrResponse
            return res.text

        except ApiException as ex:
            print("Exception")
            print("Info: " + str(ex))
            raise ex
                   
obj=RecognizeFromURL()
print(obj.recognize_text())

결론

이 글에서는 cURL 명령어와 파이썬 코드 조각을 사용하여 온라인에서 OCR을 수행하는 방법에 대한 세부 정보를 알아보았습니다. 클라우드 SDK는 MIT 라이선스에 따라 구축되었으므로 GitHub 저장소에서 전체 소스 코드를 다운로드하는 것을 고려할 수 있습니다. 이 저장소에는 무료 데모도 제공되며 이를 실행하려면 아래에 제공된 단계를 따르십시오.

SDK를 확인하거나 pip에서 받으세요(pip install aspose-ocr-cloud)
클라이언트 ID 및 클라이언트 비밀 설정
Python 콘솔 실행데모 또는 단위 테스트

OCR 온라인 REST API#

지원 언어#

지원되는 파일 형식#

파이썬을 사용한 OCR 온라인#

로컬 이미지에서 이미지를 텍스트로 변환#

클라우드 스토리지의 이미지에 대한 Python OCR#

URL의 이미지 OCR#

결론#

관련기사#