
การจดจำอักขระด้วยแสงเป็นวิธีที่ชาญฉลาดในการจดจำเนื้อหาเหนือภาพแรสเตอร์ และยังมีประโยชน์มากขึ้นเมื่อคุณต้องเก็บรักษาเอกสารเก่าในคลังในรูปแบบดิจิทัล หนังสือที่เก่าแก่หลายพันปีสามารถเก็บรักษาไว้ได้อย่างง่ายดายโดยการแปลงเป็นรูปแบบห้องสมุดดิจิทัลโดยใช้การดำเนินการ OCR นอกจากนี้ ความต้องการนี้ก็แพร่หลายไปทั่วทุกหนทุกแห่งในช่วงหลายปีที่ผ่านมา ดังนั้นเพื่อให้บรรลุความต้องการนี้ คุณจะต้องใช้ซอฟต์แวร์สำเร็จรูป หรือในกรณีที่คุณจำเป็นต้องดำเนินการจำนวนมากโดยไม่ต้องมีการแทรกแซงจากมนุษย์ วิธีที่รวดเร็วและง่ายที่สุดคือการใช้ API การเขียนโปรแกรม ในส่วนที่เหลือของบทความ เราจะอธิบายขั้นตอนเกี่ยวกับการดำเนินการ OCR บนภาพโดยใช้ Python REST API
OCR REST API ออนไลน์
Aspose.OCR Cloud SDK สำหรับ Python โดดเด่นเมื่อต้องใช้งานระบบจดจำอักขระด้วยแสงบนภาพแรสเตอร์ (BMP, JPEG, GIF, PNG, TIFF) เมื่อดำเนินการ OCR คุณจะสามารถอ่านอักขระและข้อมูลแบบอักษรได้ คุณสามารถดำเนินการ OCR กับภาพทั้งหมดหรือเฉพาะบางส่วนโดยระบุพิกัด X และ Y เมื่อระบบจดจำอักขระด้วยแสงเสร็จสมบูรณ์แล้ว การตอบสนองจะถูกส่งกลับในรูปแบบ XML หรือ JSON และข้อความที่แยกออกมาสามารถบันทึกเป็นรูปแบบ TXT, PDF และ HOCR ได้ ด้านล่างนี้คือคุณสมบัติระดับสูงบางส่วน
- การแก้ไขความเอียงอัตโนมัติ
- การตรวจจับเค้าโครงเอกสารอัตโนมัติและด้วยตนเอง
- การประมวลผลภาพล่วงหน้าอัตโนมัติขั้นสูง
- รองรับภาษาต่างประเทศหลายภาษา
- ความเร็วสูงโดยไม่ต้องใช้ทรัพยากรฮาร์ดแวร์
ภาษาที่รองรับ
นอกจากภาษาอังกฤษแล้ว API ยังมีความสามารถในการจดจำข้อความในภาษาฝรั่งเศส เยอรมัน อิตาลี โปรตุเกส และสเปนอีกด้วย
รูปแบบไฟล์ที่รองรับ
ด้านล่างนี้เป็นรายการรูปแบบไฟล์ทั้งหมดที่ REST API รองรับสำหรับการดำเนินการ OCR ในปัจจุบัน
.bmp, .dib, .jpeg, .jpg, .jpe, .jp2, .png, .webp, .pbm, .pgm, .ppm, .pxm, .pnm .pfm, .sr, .ras, .tiff, .tif, .exr, .hdr, .pic
OCR ออนไลน์โดยใช้ Python
API ของเราได้รับการพัฒนาตามสถาปัตยกรรม REST ดังนั้นในส่วนนี้ เราจะมาสำรวจการแปลงรูปภาพเป็นข้อความโดยใช้คำสั่ง cURL เราเข้าใจดีว่าคำสั่ง cURL เป็นวิธีที่ยืดหยุ่นในการเข้าถึง REST API ผ่านคอนโซล ขณะนี้ ข้อกำหนดเบื้องต้นประการหนึ่งคือการสร้างโทเค็น JWT สำหรับรายละเอียดเพิ่มเติมที่เกี่ยวข้อง โปรดไปที่ วิธีรับโทเค็น JWT โดยใช้รหัสไคลเอนต์และรหัสลับไคลเอนต์
curl -v "https://api.aspose.cloud/oauth2/token" \-X POST \-d "grant_type=client_credentials&client_id=xxxxx-xxxx-xxx-xxxx-&client_secret=xxxxxxxxx" \-H "Content-Type: application/x-www-form-urlencoded" \ -H "Accept: application/json"
เมื่อคุณมีโทเค็น JWT แล้ว โปรดลองใช้คำสั่งต่อไปนี้เพื่อดำเนินการ OCR บนรูปภาพที่อยู่บนที่เก็บข้อมูลบนคลาวด์ที่มีข้อความภาษาอังกฤษ
curl -X GET "https://api.aspose.cloud/v3.0/ocr/downsize.jpeg/recognize?language=1" -H "accept: application/json" -H "authorization: Bearer <JWT Token>"
การแปลงภาพเป็นข้อความบนภาพท้องถิ่น
ในส่วนนี้เราจะดำเนินการ OCR กับภาพที่โหลดจากไดรฟ์ภายในเครื่อง
# สำหรับตัวอย่างและไฟล์ข้อมูลแบบสมบูรณ์ โปรดไปที่ https://github.com/aspose-ocr-cloud/aspose-ocr-cloud-python/
import os
import asposeocrcloud.api.storage_api
from asposeocrcloud.configuration import Configuration
from asposeocrcloud.api.ocr_api import OcrApi
from asposeocrcloud.models import OCRRect, OCRRegion, OCRRequestData, OCRRequestDataStorage, LanguageGroup
from asposeocrcloud.rest import ApiException
import json as json
class RecognizeFromContent(object):
def __init__(self):
# ตั้งค่าไคลเอนต์ CAD และ Storage API
with open("config.json") as f:
server_file_info = json.load(f)
config = Configuration( apiKey=server_file_info['AppKey'],
appSid=server_file_info['AppSid'])
self.ocr_api = OcrApi(config)
def recognize_text(self):
file_name = "5.png"
src = os.path.join(os.path.abspath("data/"), file_name)
try:
res = self.ocr_api.post_recognize_from_content(src) # type: asposeocrcloud.models.OcrResponse
return res.text
except ApiException as ex:
print("Exception")
print("Info: " + str(ex))
raise ex
obj=RecognizeFromContent()
print(obj.recognize_text())
Python OCR บนภาพจากระบบจัดเก็บข้อมูลบนคลาวด์
เราจะเรียนรู้รายละเอียดเกี่ยวกับวิธีการโหลดรูปภาพจากระบบจัดเก็บข้อมูลบนคลาวด์และดำเนินการ OCR ภาพโดยใช้ชิ้นส่วนโค้ด Python
# สำหรับตัวอย่างและไฟล์ข้อมูลแบบสมบูรณ์ โปรดไปที่ https://github.com/aspose-ocr-cloud/aspose-ocr-cloud-python/
import asposeocrcloud.api.storage_api
from asposeocrcloud.configuration import Configuration
from asposeocrcloud.api.ocr_api import OcrApi
from asposeocrcloud.models import OCRRect, OCRRegion, OCRRequestData, OCRRequestDataStorage, LanguageGroup
import json as json
class RecognizeFromStorage(object):
def __init__(self):
# ตั้งค่าไคลเอนต์ CAD และ Storage API
with open("config.json") as f:
server_file_info = json.load(f)
config = Configuration( apiKey=server_file_info['AppKey'],
appSid=server_file_info['AppSid'])
self.ocr_api = OcrApi(config)
self.storage_api= asposeocrcloud.api.storage_api.StorageApi(config)
def recognize_text(self):
self.storage_api.upload_file("5.png", r"data\5.png")
res = self.ocr_api.get_recognize_from_storage("5.png")
return res.text
obj=RecognizeFromStorage()
print(obj.recognize_text())
OCR ภาพบน URL
ในกรณีที่คุณพบความต้องการในการดำเนินการจดจำภาพด้วยแสงบนรูปภาพที่มีอยู่ใน URL ของเว็บ API จะมีความสามารถอย่างเต็มที่และรองรับฟีเจอร์นี้ วิธี postrecognizefromurl ของ API สามารถใช้เพื่อบรรลุความต้องการนี้ได้
# สำหรับตัวอย่างและไฟล์ข้อมูลแบบสมบูรณ์ โปรดไปที่ https://github.com/aspose-ocr-cloud/aspose-ocr-cloud-python/
import os
import asposeocrcloud.api.storage_api
from asposeocrcloud.configuration import Configuration
from asposeocrcloud.api.ocr_api import OcrApi
from asposeocrcloud.models import OCRRect, OCRRegion, OCRRequestData, OCRRequestDataStorage, LanguageGroup
from asposeocrcloud.rest import ApiException
import json as json
class RecognizeFromURL(object):
def __init__(self):
# ตั้งค่าไคลเอนต์ CAD และ Storage API
with open("config.json") as f:
server_file_info = json.load(f)
config = Configuration( apiKey=server_file_info['AppKey'],
appSid=server_file_info['AppSid'])
self.ocr_api = OcrApi(config)
def recognize_text(self):
url = "https://upload.wikimedia.org/wikipedia/commons/2/2f/Book_of_Abraham_FirstPage.png"
try:
res = self.ocr_api.post_recognize_from_url(url) # type: asposeocrcloud.models.OcrResponse
return res.text
except ApiException as ex:
print("Exception")
print("Info: " + str(ex))
raise ex
obj=RecognizeFromURL()
print(obj.recognize_text())
บทสรุป
ในบทความนี้ เราได้เรียนรู้รายละเอียดเกี่ยวกับวิธีการดำเนินการ OCR ออนไลน์โดยใช้คำสั่ง cURL เช่นเดียวกับสไนปเป็ตโค้ดของ Python เนื่องจาก Cloud SDK ของเราสร้างขึ้นภายใต้ใบอนุญาต MIT ดังนั้นคุณอาจลองดาวน์โหลดโค้ดต้นฉบับทั้งหมดจาก GitHub repository ก็ได้ รีพอสทอรีนี้ยังมาพร้อมกับเดโมฟรี และเพื่อดำเนินการ โปรดปฏิบัติตามขั้นตอนด้านล่าง
- ตรวจสอบ SDK หรือรับจาก pip(pip install aspose-ocr-cloud)
- ตั้งค่ารหัสลูกค้าและความลับของลูกค้า
- เรียกใช้คอนโซล Python Demo หรือ UnitTests
บทความที่เกี่ยวข้อง
เราขอแนะนำให้คุณเยี่ยมชมลิงค์ต่อไปนี้เพื่อเรียนรู้เพิ่มเติมเกี่ยวกับ: