
Η Οπτική Αναγνώριση Χαρακτήρων είναι ένας έξυπνος τρόπος αναγνώρισης περιεχομένου πάνω από εικόνες ράστερ. Γίνεται ακόμη πιο χρήσιμο όταν χρειάζεται να διατηρήσετε την παλιά αρχειακή βιβλιογραφία σε ψηφιακή μορφή. Τα βιβλία χιλιάδων ετών μπορούν εύκολα να διατηρηθούν μετατρέποντάς τα σε μορφή ψηφιακών βιβλιοθηκών χρησιμοποιώντας λειτουργίες OCR. Επίσης, με τα χρόνια, αυτή η ανάγκη έγινε πανταχού παρούσα. Επομένως, για να εκπληρώσετε αυτήν την απαίτηση, είτε πρέπει να χρησιμοποιήσετε κάποιο λογισμικό που δεν είναι διαθέσιμο, είτε σε περίπτωση που χρειάζεται να εκτελέσετε μαζικές λειτουργίες χωρίς ανθρώπινη παρέμβαση, ο γρήγορος και ευκολότερος τρόπος είναι να χρησιμοποιήσετε το API προγραμματισμού. Στο υπόλοιπο του άρθρου, θα εξηγήσουμε τα βήματα για τον τρόπο εκτέλεσης OCR σε εικόνες χρησιμοποιώντας το Python REST API.
OCR Online REST API
Το Aspose.OCR Cloud SDK για Python είναι αξιοσημείωτο όσον αφορά την οπτική αναγνώριση χαρακτήρων σε εικόνες ράστερ (BMP, JPEG, GIF, PNG, TIFF).Όταν εκτελείτε λειτουργίες OCR, σας δίνει τη δυνατότητα να διαβάσετε τους χαρακτήρες καθώς και τις πληροφορίες γραμματοσειράς. Μπορείτε να εκτελέσετε το OCR σε ολόκληρη την εικόνα ή σε ένα συγκεκριμένο τμήμα παρέχοντας συντεταγμένες X και Y. Αφού ολοκληρωθεί η αναγνώριση οπτικών χαρακτήρων, η απόκριση επιστρέφεται σε μορφές XML ή JSON και το εξαγόμενο κείμενο μπορεί να αποθηκευτεί σε μορφές TXT, PDF και HOCR. Παρακάτω καθορίζονται ορισμένα χαρακτηριστικά υψηλού επιπέδου.
- Αυτόματη διόρθωση κλίσης
- Αυτόματος και μη αυτόματος εντοπισμός διάταξης εγγράφων
- Προηγμένη αυτοματοποιημένη προεπεξεργασία εικόνας
- Υποστηρίζει πολλές διεθνείς γλώσσες
- Υψηλή ταχύτητα χωρίς πόρους υλικού
Υποστηριζόμενες γλώσσες
Μαζί με την αγγλική γλώσσα, το API είναι πλήρως ικανό να αναγνωρίζει κείμενο στη γαλλική, γερμανική, ιταλική, πορτογαλική και ισπανική γλώσσα.
Υποστηριζόμενες μορφές αρχείων
Παρακάτω καθορίζεται η πλήρης λίστα των μορφών αρχείων που υποστηρίζονται αυτήν τη στιγμή από το REST API για λειτουργίες OCR.
.bmp, .dib, .jpeg, .jpg, .jpe, .jp2, .png, .webp, .pbm, .pgm, .ppm, .pxm, .pnm, .pxm, .pnm, .pxm, .pnm, .srf] .tif, .exr, .hdr, .pic
OCR Online χρησιμοποιώντας Python
Τα API μας αναπτύσσονται σύμφωνα με την αρχιτεκτονική REST, επομένως σε αυτήν την ενότητα, θα εξερευνήσουμε τη μετατροπή εικόνας σε κείμενο χρησιμοποιώντας εντολές cURL. Κατανοούμε ότι οι εντολές cURL είναι ο ευέλικτος τρόπος πρόσβασης στα REST API μέσω της κονσόλας. Τώρα ένα από τα προαπαιτούμενα είναι να δημιουργήσετε ένα διακριτικό JWT. Για περισσότερες σχετικές λεπτομέρειες, επισκεφτείτε το How to Obtain JWT token using a Client ID and Client Secret.
curl -v "https://api.aspose.cloud/oauth2/token" \-X POST \-d "grant_type=client_credentials&client_id=xxxxx-xxxx-xxx-xxxx-&client_secret=xxxxxxxxx" \-H "Content-Type: application/x-www-form-urlencoded" \ -H "Accept: application/json"
Αφού έχετε το διακριτικό JWT, δοκιμάστε να χρησιμοποιήσετε την ακόλουθη εντολή για να εκτελέσετε μια λειτουργία OCR σε μια εικόνα που βρίσκεται στο χώρο αποθήκευσης cloud, που περιέχει αγγλικό κείμενο.
curl -X GET "https://api.aspose.cloud/v3.0/ocr/downsize.jpeg/recognize?language=1" -H "accept: application/json" -H "authorization: Bearer <JWT Token>"
Μετατροπή εικόνας σε κείμενο σε τοπική εικόνα
Σε αυτήν την ενότητα, πρόκειται να εκτελέσουμε λειτουργία OCR σε εικόνα που έχει φορτωθεί από τοπική μονάδα δίσκου
# Για πλήρη παραδείγματα και αρχεία δεδομένων, μεταβείτε στη διεύθυνση https://github.com/aspose-ocr-cloud/aspose-ocr-cloud-python/
import os
import asposeocrcloud.api.storage_api
from asposeocrcloud.configuration import Configuration
from asposeocrcloud.api.ocr_api import OcrApi
from asposeocrcloud.models import OCRRect, OCRRegion, OCRRequestData, OCRRequestDataStorage, LanguageGroup
from asposeocrcloud.rest import ApiException
import json as json
class RecognizeFromContent(object):
def __init__(self):
# Ρύθμιση πελατών CAD και Storage API
with open("config.json") as f:
server_file_info = json.load(f)
config = Configuration( apiKey=server_file_info['AppKey'],
appSid=server_file_info['AppSid'])
self.ocr_api = OcrApi(config)
def recognize_text(self):
file_name = "5.png"
src = os.path.join(os.path.abspath("data/"), file_name)
try:
res = self.ocr_api.post_recognize_from_content(src) # type: asposeocrcloud.models.OcrResponse
return res.text
except ApiException as ex:
print("Exception")
print("Info: " + str(ex))
raise ex
obj=RecognizeFromContent()
print(obj.recognize_text())
Python OCR σε εικόνα από το Cloud Storage
Θα μάθουμε τις λεπτομέρειες σχετικά με το πώς μπορούμε να φορτώσουμε μια εικόνα από την αποθήκευση στο Cloud και να εκτελέσουμε OCR εικόνας χρησιμοποιώντας απόσπασμα κώδικα Python.
# Για πλήρη παραδείγματα και αρχεία δεδομένων, μεταβείτε στη διεύθυνση https://github.com/aspose-ocr-cloud/aspose-ocr-cloud-python/
import asposeocrcloud.api.storage_api
from asposeocrcloud.configuration import Configuration
from asposeocrcloud.api.ocr_api import OcrApi
from asposeocrcloud.models import OCRRect, OCRRegion, OCRRequestData, OCRRequestDataStorage, LanguageGroup
import json as json
class RecognizeFromStorage(object):
def __init__(self):
# Ρύθμιση πελατών CAD και Storage API
with open("config.json") as f:
server_file_info = json.load(f)
config = Configuration( apiKey=server_file_info['AppKey'],
appSid=server_file_info['AppSid'])
self.ocr_api = OcrApi(config)
self.storage_api= asposeocrcloud.api.storage_api.StorageApi(config)
def recognize_text(self):
self.storage_api.upload_file("5.png", r"data\5.png")
res = self.ocr_api.get_recognize_from_storage("5.png")
return res.text
obj=RecognizeFromStorage()
print(obj.recognize_text())
OCR εικόνας στη διεύθυνση URL
Σε περίπτωση που συναντήσετε μια απαίτηση για την εκτέλεση οπτικής αναγνώρισης εικόνας σε μια εικόνα διαθέσιμη σε μια διεύθυνση URL Web, το API είναι πλήρως ικανό και υποστηρίζει αυτήν τη δυνατότητα. Η μέθοδος postrecognizefromurl του API μπορεί να χρησιμοποιηθεί για την εκπλήρωση αυτής της απαίτησης.
# Για πλήρη παραδείγματα και αρχεία δεδομένων, μεταβείτε στη διεύθυνση https://github.com/aspose-ocr-cloud/aspose-ocr-cloud-python/
import os
import asposeocrcloud.api.storage_api
from asposeocrcloud.configuration import Configuration
from asposeocrcloud.api.ocr_api import OcrApi
from asposeocrcloud.models import OCRRect, OCRRegion, OCRRequestData, OCRRequestDataStorage, LanguageGroup
from asposeocrcloud.rest import ApiException
import json as json
class RecognizeFromURL(object):
def __init__(self):
# Ρύθμιση πελατών CAD και Storage API
with open("config.json") as f:
server_file_info = json.load(f)
config = Configuration( apiKey=server_file_info['AppKey'],
appSid=server_file_info['AppSid'])
self.ocr_api = OcrApi(config)
def recognize_text(self):
url = "https://upload.wikimedia.org/wikipedia/commons/2/2f/Book_of_Abraham_FirstPage.png"
try:
res = self.ocr_api.post_recognize_from_url(url) # type: asposeocrcloud.models.OcrResponse
return res.text
except ApiException as ex:
print("Exception")
print("Info: " + str(ex))
raise ex
obj=RecognizeFromURL()
print(obj.recognize_text())
Σύναψη
Σε αυτό το άρθρο, μάθαμε τις λεπτομέρειες σχετικά με τον τρόπο εκτέλεσης του OCR στο διαδίκτυο χρησιμοποιώντας την εντολή cURL καθώς και μέσω του αποσπάσματος κώδικα python. Καθώς τα Cloud SDK μας έχουν δημιουργηθεί με άδεια MIT, μπορείτε να εξετάσετε το ενδεχόμενο λήψης του πλήρους πηγαίου κώδικα από το αποθετήριο GitHub. Αυτό το αποθετήριο συνοδεύεται επίσης με δωρεάν επιδείξεις και για να τις εκτελέσετε, ακολουθήστε τα παρακάτω βήματα.
- Ελέγξτε το SDK ή λάβετε από το pip(pip install aspose-ocr-cloud)
- Ορίστε το αναγνωριστικό πελάτη και το μυστικό πελάτη
- Εκτελέστε την κονσόλα Python Demo ή UnitTests
Σχετικά Άρθρα
Σας συνιστούμε ιδιαίτερα να επισκεφθείτε τους παρακάτω συνδέσμους για να μάθετε περισσότερα σχετικά με: