PDF-bestanden worden veel via internet gebruikt voor het delen van informatie en gegevens. Ze zijn behoorlijk populair omdat ze de getrouwheid van documenten behouden bij het bekijken op elk platform. We hebben echter geen controle over de bron en sommige bestanden worden in gescande indeling gedeeld. Soms legt u een afbeelding vast als pdf en moet u later de inhoud uit het bestand extraheren. Een haalbare oplossing is dus om een OCR-bewerking uit te voeren en de tekst te extraheren. Als u het bestand echter na de OCR-bewerking wilt behouden, is conversie naar PDF-indeling een haalbare oplossing. In dit artikel gaan we de stappen bespreken voor het converteren van een gescande PDF naar tekst-PDF met behulp van Python.
OCR PDF-API
Aspose.PDF Cloud SDK voor Python is een wrapper rond Aspose.PDF Cloud. Hiermee kunt u alle verwerkingsmogelijkheden van PDF-bestanden binnen de Python-toepassing uitvoeren. Manipuleer PDF-bestanden zonder Adobe Acrobat of een andere toepassing. Dus om de SDK te gebruiken, is de eerste stap de installatie, en deze kan worden gedownload via PIP en GitHub repository. Voer nu de volgende opdracht uit op de terminal/opdrachtprompt om de nieuwste versie van SDK op het systeem te installeren.
pip install asposepdfcloud
MS Visual Studio
U kunt de referentie ook rechtstreeks toevoegen aan uw Python-project binnen het Visual Studio-project. Zoek asposepdfcloud als een pakket onder het Python-omgevingsvenster. Volg de genummerde stappen in de onderstaande afbeelding om het installatieproces te voltooien.
Aspose.Cloud-dashboard
Aangezien onze API’s alleen toegankelijk zijn voor geautoriseerde personen, is de volgende stap het aanmaken van een account op Aspose.Cloud dashboard. Als u een GitHub- of Google-account heeft, hoeft u zich alleen maar aan te melden of op de knop Een nieuw account maken te klikken en de vereiste informatie op te geven. Log nu in op het dashboard met behulp van inloggegevens en vouw het gedeelte Toepassingen vanaf het dashboard uit en scrol omlaag naar het gedeelte Klantreferenties om de klant-ID en klantgeheimen te bekijken.
Afbeelding PDF naar doorzoekbare PDF in Python
Volg de onderstaande stappen om OCR-bewerkingen uit te voeren op een gescand PDF-document en sla het op als een doorzoekbaar document (pdf doorzoekbaar maken). Deze stappen helpen ons om gratis online OCR te ontwikkelen met behulp van Python.
- Eerst moeten we een instantie van de ApiClient-klasse maken terwijl we Client ID Client Secret als argumenten opgeven
- Maak ten tweede een instantie van de PdfApi-klasse die het ApiClient-object als invoerargument gebruikt
- Roep nu de methode putsearchabledocument(..) van de PdfApi-klasse aan die de ingevoerde PDF-naam en een optionele parameter gebruikt die de taal van de OCR-engine aangeeft.
def ocrPDF():
try:
#Client credentials
client_secret = "406b404b2df649611e508bbcfcd2a77f"
client_id = "88d1cda8-b12c-4a80-b1ad-c85ac483c5c5"
#initialize PdfApi client instance using client credetials
pdf_api_client = asposepdfcloud.api_client.ApiClient(client_secret, client_id)
# maak PdfApi-instantie terwijl PdfApiClient als argument wordt doorgegeven
pdf_api = PdfApi(pdf_api_client)
#input PDF file name
input_file = 'image-based-pdf-sample.pdf'
# roep de API aan om OCR-bewerkingen uit te voeren en sla de uitvoer op in cloudopslag
response = pdf_api.put_searchable_document(name=input_file,lang='eng')
# print bericht in console (optioneel)
print('Image PDF successfully converted to Text PDF !')
except ApiException as e:
print("Exception while calling PdfApi: {0}".format(e))
print("Code:" + str(e.code))
print("Message:" + e.message)
In de bovenstaande afbeelding geeft het linkergedeelte het ingevoerde gescande PDF-bestand aan en het gedeelte aan de rechterkant toont een voorbeeld van de resulterende op tekst gebaseerde PDF. De voorbeeldbestanden die in het bovenstaande voorbeeld worden gebruikt, kunnen worden gedownload van image-based-pdf-sample.pdf en OCR-Result.pdf.
OCR online met cURL-opdrachten
De REST API’s zijn ook toegankelijk via cURL-opdrachten en aangezien onze Cloud API’s zijn gebaseerd op REST-architectuur, kunnen we de cURL-opdracht ook gebruiken om PDF OCR online uit te voeren. Voordat we echter doorgaan met de conversie, moeten we een JSON Web Token (JWT) genereren op basis van uw individuele klantreferenties die zijn opgegeven via het Aspose.Cloud-dashboard. Het is verplicht omdat onze API’s alleen toegankelijk zijn voor geregistreerde gebruikers. Voer de volgende opdracht uit om het JWT-token te genereren.
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=88d1cda8-b12c-4a80-b1ad-c85ac483c5c5&client_secret=406b404b2df649611e508bbcfcd2a77f" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
Zodra we het JWT-token hebben, voert u de volgende opdracht uit om de OCR-bewerking uit te voeren en de uitvoer op te slaan in dezelfde cloudopslag.
curl -v -X PUT "https://api.aspose.cloud/v3.0/pdf/image-based-pdf-sample.pdf/ocr" \
-H "accept: application/json" \
-H "authorization: Bearer <JWT Token>"
Gevolgtrekking
In dit artikel hebben we de stappen besproken om PDF naar doorzoekbare PDF te converteren met behulp van het Python-codefragment. We hebben ook de details onderzocht over het uitvoeren van OCR Online met behulp van de cURL-opdrachten. Aangezien onze cloud-SDK’s zijn ontwikkeld onder MIT-licentie, kunt u het volledige codefragment downloaden van GitHub en bijwerken volgens uw vereisten. We raden u ten zeerste aan om de Ontwikkelaarsgids te verkennen voor meer informatie over andere interessante functies die momenteel worden aangeboden door Cloud API.
Als u gerelateerde vragen heeft of problemen ondervindt tijdens het gebruik van onze API’s, neem dan gerust contact met ons op via het gratis klantenondersteuningsforum.
gerelateerde artikelen
We raden u ook aan de volgende artikelen door te nemen om er meer over te weten te komen