
Die optische Zeichenerkennung ist eine intelligente Methode, um Inhalte auf Rasterbildern zu erkennen. Sie ist sogar noch nützlicher, wenn Sie alte Archivliteratur in einem digitalen Format bewahren müssen. Tausende Jahre alte Bücher können leicht bewahrt werden, indem man sie mithilfe von OCR-Operationen in die Form digitaler Bibliotheken umwandelt. Außerdem ist dieser Bedarf im Laufe der Jahre allgegenwärtig geworden. Um diese Anforderung zu erfüllen, müssen Sie entweder eine vorgefertigte Software verwenden oder, falls Sie Massenoperationen ohne menschliches Eingreifen durchführen müssen, die schnellste und einfachste Möglichkeit ist die Verwendung einer Programmier-API. Im Rest des Artikels erklären wir die Schritte zur Durchführung von OCR auf Bildern mithilfe der Python REST API.
OCR Online REST API
Aspose.OCR Cloud SDK für Python ist bemerkenswert, wenn es um optische Zeichenerkennung über Rasterbilder (BMP, JPEG, GIF, PNG, TIFF) geht. Bei der Durchführung von OCR-Vorgängen können Sie die Zeichen sowie Schriftinformationen lesen. Sie können die OCR auf dem gesamten Bild oder einem bestimmten Teil durchführen, während Sie X und Y-Koordinaten angeben. Nachdem die optische Zeichenerkennung abgeschlossen ist, wird die Antwort in den Formaten XML oder JSON zurückgegeben und der extrahierte Text kann in den Formaten TXT, PDF und HOCR gespeichert werden. Im Folgenden sind einige wichtige Funktionen aufgeführt.
- Automatische Schräglagenkorrektur
- Automatische und manuelle Dokumentlayouterkennung
- Erweiterte automatisierte Bildvorverarbeitung
- Unterstützt mehrere internationale Sprachen
- Hohe Geschwindigkeit ohne Hardwareressourcen
Unterstützte Sprachen
Neben der englischen Sprache ist die API auch in der Lage, Texte in den Sprachen Französisch, Deutsch, Italienisch, Portugiesisch und Spanisch zu erkennen.
Unterstützte Dateiformate
Nachfolgend finden Sie die vollständige Liste der Dateiformate, die derzeit von der REST-API für OCR-Vorgänge unterstützt werden.
.bmp, .dib, .jpeg, .jpg, .jpe, .jp2, .png, .webp, .pbm, .pgm, .ppm, .pxm, .pnm .pfm, .sr, .ras, .tiff, .tif, .exr, .hdr, .pic
OCR Online mit Python
Unsere APIs werden gemäß der REST-Architektur entwickelt. In diesem Abschnitt werden wir daher die Konvertierung von Bildern in Text mithilfe von cURL-Befehlen untersuchen. Wir wissen, dass die cURL-Befehle die flexible Möglichkeit sind, über die Konsole auf REST-APIs zuzugreifen. Eine der Voraussetzungen ist nun die Generierung eines JWT-Tokens. Weitere Einzelheiten hierzu finden Sie unter So erhalten Sie ein JWT-Token mithilfe einer Client-ID und eines Client-Geheimnisses.
curl -v "https://api.aspose.cloud/oauth2/token" \-X POST \-d "grant_type=client_credentials&client_id=xxxxx-xxxx-xxx-xxxx-&client_secret=xxxxxxxxx" \-H "Content-Type: application/x-www-form-urlencoded" \ -H "Accept: application/json"
Sobald Sie das JWT-Token haben, versuchen Sie, mit dem folgenden Befehl eine OCR-Operation für ein Bild im Cloud-Speicher durchzuführen, das englischen Text enthält.
curl -X GET "https://api.aspose.cloud/v3.0/ocr/downsize.jpeg/recognize?language=1" -H "accept: application/json" -H "authorization: Bearer <JWT Token>"
Bild zu Text-Konvertierung auf lokalem Bild
In diesem Abschnitt führen wir einen OCR-Vorgang für ein vom lokalen Laufwerk geladenes Bild durch
# Vollständige Beispiele und Datendateien finden Sie unter https://github.com/aspose-ocr-cloud/aspose-ocr-cloud-python/
import os
import asposeocrcloud.api.storage_api
from asposeocrcloud.configuration import Configuration
from asposeocrcloud.api.ocr_api import OcrApi
from asposeocrcloud.models import OCRRect, OCRRegion, OCRRequestData, OCRRequestDataStorage, LanguageGroup
from asposeocrcloud.rest import ApiException
import json as json
class RecognizeFromContent(object):
def __init__(self):
# Einrichten von CAD und Storage-API-Clients
with open("config.json") as f:
server_file_info = json.load(f)
config = Configuration( apiKey=server_file_info['AppKey'],
appSid=server_file_info['AppSid'])
self.ocr_api = OcrApi(config)
def recognize_text(self):
file_name = "5.png"
src = os.path.join(os.path.abspath("data/"), file_name)
try:
res = self.ocr_api.post_recognize_from_content(src) # type: asposeocrcloud.models.OcrResponse
return res.text
except ApiException as ex:
print("Exception")
print("Info: " + str(ex))
raise ex
obj=RecognizeFromContent()
print(obj.recognize_text())
Python OCR auf Bildern aus dem Cloud-Speicher
Wir erfahren im Detail, wie wir ein Bild aus dem Cloud-Speicher laden und mit einem Python-Codeausschnitt eine Bild-OCR durchführen können.
# Vollständige Beispiele und Datendateien finden Sie unter https://github.com/aspose-ocr-cloud/aspose-ocr-cloud-python/
import asposeocrcloud.api.storage_api
from asposeocrcloud.configuration import Configuration
from asposeocrcloud.api.ocr_api import OcrApi
from asposeocrcloud.models import OCRRect, OCRRegion, OCRRequestData, OCRRequestDataStorage, LanguageGroup
import json as json
class RecognizeFromStorage(object):
def __init__(self):
# Einrichten von CAD und Storage-API-Clients
with open("config.json") as f:
server_file_info = json.load(f)
config = Configuration( apiKey=server_file_info['AppKey'],
appSid=server_file_info['AppSid'])
self.ocr_api = OcrApi(config)
self.storage_api= asposeocrcloud.api.storage_api.StorageApi(config)
def recognize_text(self):
self.storage_api.upload_file("5.png", r"data\5.png")
res = self.ocr_api.get_recognize_from_storage("5.png")
return res.text
obj=RecognizeFromStorage()
print(obj.recognize_text())
Bild-OCR auf URL
Falls Sie eine optische Bilderkennung für ein Bild durchführen müssen, das unter einer Web-URL verfügbar ist, ist die API dazu in der Lage und unterstützt diese Funktion. Die Methode postrecognizefromurl der API kann verwendet werden, um diese Anforderung zu erfüllen.
# Vollständige Beispiele und Datendateien finden Sie unter https://github.com/aspose-ocr-cloud/aspose-ocr-cloud-python/
import os
import asposeocrcloud.api.storage_api
from asposeocrcloud.configuration import Configuration
from asposeocrcloud.api.ocr_api import OcrApi
from asposeocrcloud.models import OCRRect, OCRRegion, OCRRequestData, OCRRequestDataStorage, LanguageGroup
from asposeocrcloud.rest import ApiException
import json as json
class RecognizeFromURL(object):
def __init__(self):
# Einrichten von CAD und Storage-API-Clients
with open("config.json") as f:
server_file_info = json.load(f)
config = Configuration( apiKey=server_file_info['AppKey'],
appSid=server_file_info['AppSid'])
self.ocr_api = OcrApi(config)
def recognize_text(self):
url = "https://upload.wikimedia.org/wikipedia/commons/2/2f/Book_of_Abraham_FirstPage.png"
try:
res = self.ocr_api.post_recognize_from_url(url) # type: asposeocrcloud.models.OcrResponse
return res.text
except ApiException as ex:
print("Exception")
print("Info: " + str(ex))
raise ex
obj=RecognizeFromURL()
print(obj.recognize_text())
Abschluss
In diesem Artikel haben wir erfahren, wie man OCR online mit dem cURL-Befehl sowie mit einem Python-Codeausschnitt durchführt. Da unsere Cloud SDKs unter der MIT-Lizenz erstellt werden, können Sie den vollständigen Quellcode aus dem GitHub-Repository herunterladen. Dieses Repository enthält auch kostenlose Demos. Um diese auszuführen, befolgen Sie bitte die unten angegebenen Schritte.
- Testen Sie das SDK oder holen Sie es sich von pip(pip install aspose-ocr-cloud)
- Legen Sie Ihre Client-ID und Ihr Client-Geheimnis fest
- Führen Sie die Python-Konsole aus Demo oder UnitTests
Verwandte Artikel
Wir empfehlen Ihnen dringend, die folgenden Links zu besuchen, um mehr zu erfahren über: