ดำเนินการ OCR ออนไลน์ เปลี่ยนภาพเป็นข้อความโดยใช้ Python SDK

การจดจำอักขระด้วยแสงเป็นวิธีที่ชาญฉลาดในการจดจำเนื้อหาเหนือภาพแรสเตอร์ และยังมีประโยชน์มากขึ้นเมื่อคุณต้องเก็บรักษาเอกสารเก่าในคลังในรูปแบบดิจิทัล หนังสือที่เก่าแก่หลายพันปีสามารถเก็บรักษาไว้ได้อย่างง่ายดายโดยการแปลงเป็นรูปแบบห้องสมุดดิจิทัลโดยใช้การดำเนินการ OCR นอกจากนี้ ความต้องการนี้ก็แพร่หลายไปทั่วทุกหนทุกแห่งในช่วงหลายปีที่ผ่านมา ดังนั้นเพื่อให้บรรลุความต้องการนี้ คุณจะต้องใช้ซอฟต์แวร์สำเร็จรูป หรือในกรณีที่คุณจำเป็นต้องดำเนินการจำนวนมากโดยไม่ต้องมีการแทรกแซงจากมนุษย์ วิธีที่รวดเร็วและง่ายที่สุดคือการใช้ API การเขียนโปรแกรม ในส่วนที่เหลือของบทความ เราจะอธิบายขั้นตอนเกี่ยวกับการดำเนินการ OCR บนภาพโดยใช้ Python REST API

OCR REST API ออนไลน์
- ภาษาที่รองรับ
- รูปแบบไฟล์ที่รองรับ
OCR ออนไลน์โดยใช้ Python

OCR REST API ออนไลน์

Aspose.OCR Cloud SDK สำหรับ Python โดดเด่นเมื่อต้องใช้งานระบบจดจำอักขระด้วยแสงบนภาพแรสเตอร์ (BMP, JPEG, GIF, PNG, TIFF) เมื่อดำเนินการ OCR คุณจะสามารถอ่านอักขระและข้อมูลแบบอักษรได้ คุณสามารถดำเนินการ OCR กับภาพทั้งหมดหรือเฉพาะบางส่วนโดยระบุพิกัด X และ Y เมื่อระบบจดจำอักขระด้วยแสงเสร็จสมบูรณ์แล้ว การตอบสนองจะถูกส่งกลับในรูปแบบ XML หรือ JSON และข้อความที่แยกออกมาสามารถบันทึกเป็นรูปแบบ TXT, PDF และ HOCR ได้ ด้านล่างนี้คือคุณสมบัติระดับสูงบางส่วน

การแก้ไขความเอียงอัตโนมัติ
การตรวจจับเค้าโครงเอกสารอัตโนมัติและด้วยตนเอง
การประมวลผลภาพล่วงหน้าอัตโนมัติขั้นสูง
รองรับภาษาต่างประเทศหลายภาษา
ความเร็วสูงโดยไม่ต้องใช้ทรัพยากรฮาร์ดแวร์

ภาษาที่รองรับ

นอกจากภาษาอังกฤษแล้ว API ยังมีความสามารถในการจดจำข้อความในภาษาฝรั่งเศส เยอรมัน อิตาลี โปรตุเกส และสเปนอีกด้วย

รูปแบบไฟล์ที่รองรับ

ด้านล่างนี้เป็นรายการรูปแบบไฟล์ทั้งหมดที่ REST API รองรับสำหรับการดำเนินการ OCR ในปัจจุบัน

.bmp, .dib, .jpeg, .jpg, .jpe, .jp2, .png, .webp, .pbm, .pgm, .ppm, .pxm, .pnm .pfm, .sr, .ras, .tiff, .tif, .exr, .hdr, .pic

OCR ออนไลน์โดยใช้ Python

API ของเราได้รับการพัฒนาตามสถาปัตยกรรม REST ดังนั้นในส่วนนี้ เราจะมาสำรวจการแปลงรูปภาพเป็นข้อความโดยใช้คำสั่ง cURL เราเข้าใจดีว่าคำสั่ง cURL เป็นวิธีที่ยืดหยุ่นในการเข้าถึง REST API ผ่านคอนโซล ขณะนี้ ข้อกำหนดเบื้องต้นประการหนึ่งคือการสร้างโทเค็น JWT สำหรับรายละเอียดเพิ่มเติมที่เกี่ยวข้อง โปรดไปที่ วิธีรับโทเค็น JWT โดยใช้รหัสไคลเอนต์และรหัสลับไคลเอนต์

curl -v "https://api.aspose.cloud/oauth2/token" \-X POST \-d "grant_type=client_credentials&client_id=xxxxx-xxxx-xxx-xxxx-&client_secret=xxxxxxxxx" \-H "Content-Type: application/x-www-form-urlencoded" \ -H "Accept: application/json"

เมื่อคุณมีโทเค็น JWT แล้ว โปรดลองใช้คำสั่งต่อไปนี้เพื่อดำเนินการ OCR บนรูปภาพที่อยู่บนที่เก็บข้อมูลบนคลาวด์ที่มีข้อความภาษาอังกฤษ

curl -X GET "https://api.aspose.cloud/v3.0/ocr/downsize.jpeg/recognize?language=1" -H "accept: application/json" -H "authorization: Bearer <JWT Token>"

การแปลงภาพเป็นข้อความบนภาพท้องถิ่น

ในส่วนนี้เราจะดำเนินการ OCR กับภาพที่โหลดจากไดรฟ์ภายในเครื่อง

# สำหรับตัวอย่างและไฟล์ข้อมูลแบบสมบูรณ์ โปรดไปที่ https://github.com/aspose-ocr-cloud/aspose-ocr-cloud-python/
import os
import asposeocrcloud.api.storage_api
from asposeocrcloud.configuration import Configuration
from asposeocrcloud.api.ocr_api import OcrApi
from asposeocrcloud.models import OCRRect, OCRRegion, OCRRequestData, OCRRequestDataStorage, LanguageGroup
from asposeocrcloud.rest import ApiException

import json as json

class  RecognizeFromContent(object):

  def __init__(self):

      # ตั้งค่าไคลเอนต์ CAD และ Storage API 
      with open("config.json") as f:
          server_file_info = json.load(f)


      config = Configuration( apiKey=server_file_info['AppKey'],
                              appSid=server_file_info['AppSid'])      
      self.ocr_api = OcrApi(config)

  def recognize_text(self):
      file_name = "5.png"
      src = os.path.join(os.path.abspath("data/"), file_name)
      try:

          res = self.ocr_api.post_recognize_from_content(src)  # type: asposeocrcloud.models.OcrResponse
          return res.text

      except ApiException as ex:
          print("Exception")
          print("Info: " + str(ex))
          raise ex

obj=RecognizeFromContent()
print(obj.recognize_text())

Python OCR บนภาพจากระบบจัดเก็บข้อมูลบนคลาวด์

เราจะเรียนรู้รายละเอียดเกี่ยวกับวิธีการโหลดรูปภาพจากระบบจัดเก็บข้อมูลบนคลาวด์และดำเนินการ OCR ภาพโดยใช้ชิ้นส่วนโค้ด Python

# สำหรับตัวอย่างและไฟล์ข้อมูลแบบสมบูรณ์ โปรดไปที่ https://github.com/aspose-ocr-cloud/aspose-ocr-cloud-python/
import asposeocrcloud.api.storage_api
from asposeocrcloud.configuration import Configuration
from asposeocrcloud.api.ocr_api import OcrApi
from asposeocrcloud.models import OCRRect, OCRRegion, OCRRequestData, OCRRequestDataStorage, LanguageGroup

import json as json

class  RecognizeFromStorage(object):

    def __init__(self):

        # ตั้งค่าไคลเอนต์ CAD และ Storage API 
        with open("config.json") as f:
            server_file_info = json.load(f)
        config = Configuration( apiKey=server_file_info['AppKey'],
                                appSid=server_file_info['AppSid'])      
        self.ocr_api = OcrApi(config)
        self.storage_api= asposeocrcloud.api.storage_api.StorageApi(config)

    def recognize_text(self):
        self.storage_api.upload_file("5.png", r"data\5.png")
        res = self.ocr_api.get_recognize_from_storage("5.png")
        return res.text

obj=RecognizeFromStorage()
print(obj.recognize_text())

OCR ภาพบน URL

ในกรณีที่คุณพบความต้องการในการดำเนินการจดจำภาพด้วยแสงบนรูปภาพที่มีอยู่ใน URL ของเว็บ API จะมีความสามารถอย่างเต็มที่และรองรับฟีเจอร์นี้ วิธี postrecognizefromurl ของ API สามารถใช้เพื่อบรรลุความต้องการนี้ได้

# สำหรับตัวอย่างและไฟล์ข้อมูลแบบสมบูรณ์ โปรดไปที่ https://github.com/aspose-ocr-cloud/aspose-ocr-cloud-python/
import os
import asposeocrcloud.api.storage_api
from asposeocrcloud.configuration import Configuration
from asposeocrcloud.api.ocr_api import OcrApi
from asposeocrcloud.models import OCRRect, OCRRegion, OCRRequestData, OCRRequestDataStorage, LanguageGroup
from asposeocrcloud.rest import ApiException

import json as json

class  RecognizeFromURL(object):

    def __init__(self):
       
        # ตั้งค่าไคลเอนต์ CAD และ Storage API 
        with open("config.json") as f:
            server_file_info = json.load(f)        
        config = Configuration( apiKey=server_file_info['AppKey'],
                                appSid=server_file_info['AppSid'])      
        self.ocr_api = OcrApi(config)  
         
    def recognize_text(self):
        url = "https://upload.wikimedia.org/wikipedia/commons/2/2f/Book_of_Abraham_FirstPage.png"
        try:
            res = self.ocr_api.post_recognize_from_url(url)  # type: asposeocrcloud.models.OcrResponse
            return res.text

        except ApiException as ex:
            print("Exception")
            print("Info: " + str(ex))
            raise ex
                   
obj=RecognizeFromURL()
print(obj.recognize_text())

บทสรุป

ในบทความนี้ เราได้เรียนรู้รายละเอียดเกี่ยวกับวิธีการดำเนินการ OCR ออนไลน์โดยใช้คำสั่ง cURL เช่นเดียวกับสไนปเป็ตโค้ดของ Python เนื่องจาก Cloud SDK ของเราสร้างขึ้นภายใต้ใบอนุญาต MIT ดังนั้นคุณอาจลองดาวน์โหลดโค้ดต้นฉบับทั้งหมดจาก GitHub repository ก็ได้ รีพอสทอรีนี้ยังมาพร้อมกับเดโมฟรี และเพื่อดำเนินการ โปรดปฏิบัติตามขั้นตอนด้านล่าง

ตรวจสอบ SDK หรือรับจาก pip(pip install aspose-ocr-cloud)
ตั้งค่ารหัสลูกค้าและความลับของลูกค้า
เรียกใช้คอนโซล Python Demo หรือ UnitTests

บทความที่เกี่ยวข้อง

เราขอแนะนำให้คุณเยี่ยมชมลิงค์ต่อไปนี้เพื่อเรียนรู้เพิ่มเติมเกี่ยวกับ:

OCR REST API ออนไลน์#

ภาษาที่รองรับ#

รูปแบบไฟล์ที่รองรับ#

OCR ออนไลน์โดยใช้ Python#

การแปลงภาพเป็นข้อความบนภาพท้องถิ่น#

Python OCR บนภาพจากระบบจัดเก็บข้อมูลบนคลาวด์#

OCR ภาพบน URL#

บทสรุป#

บทความที่เกี่ยวข้อง#