PDF OCR

ไฟล์ PDF ถูกใช้อย่างแพร่หลายบนอินเทอร์เน็ตสำหรับข้อมูลและการแบ่งปันข้อมูล ค่อนข้างเป็นที่นิยมเพราะรักษาความเที่ยงตรงของเอกสารเมื่อดูบนแพลตฟอร์มใดๆ อย่างไรก็ตาม เราไม่สามารถควบคุมแหล่งที่มาได้ และไฟล์บางไฟล์จะถูกแชร์ในรูปแบบสแกน บางครั้งคุณจับภาพเป็น PDF และต่อมาคุณต้องแยกเนื้อหาออกจากไฟล์ ดังนั้นวิธีแก้ปัญหาที่ได้ผลคือดำเนินการ OCR และแยกข้อความ อย่างไรก็ตาม หลังจากการดำเนินการ OCR หากคุณต้องการรักษาไฟล์ การแปลงเป็นรูปแบบ PDF เป็นวิธีแก้ปัญหาที่ได้ผล ในบทความนี้ เราจะพูดถึงขั้นตอนในการแปลง PDF ที่สแกนเป็น Text PDF โดยใช้ Python

OCR PDF API

Aspose.PDF Cloud SDK สำหรับ Python เป็นตัวห่อหุ้ม Aspose.PDF Cloud ช่วยให้คุณสามารถประมวลผลไฟล์ PDF ได้ทั้งหมดภายในแอปพลิเคชัน Python จัดการไฟล์ PDF โดยไม่ต้องใช้ Adobe Acrobat หรือแอปพลิเคชันอื่นใด ดังนั้นหากต้องการใช้ SDK ขั้นตอนแรกคือการติดตั้ง และพร้อมให้ดาวน์โหลดผ่านที่เก็บ PIP และ GitHub ตอนนี้ดำเนินการคำสั่งต่อไปนี้บนเทอร์มินัล/พรอมต์คำสั่งเพื่อติดตั้ง SDK เวอร์ชันล่าสุดบนระบบ

 pip install asposepdfcloud

MS Visual Studio

คุณยังสามารถเพิ่มการอ้างอิงโดยตรงในโครงการ Python ของคุณภายในโครงการ Visual Studio โปรดค้นหา asposepdfcloud เป็นแพ็คเกจภายใต้หน้าต่างสภาพแวดล้อม Python โปรดปฏิบัติตามขั้นตอนหมายเลขในภาพด้านล่างเพื่อเสร็จสิ้นขั้นตอนการติดตั้ง

Aspose.PDF คลาวด์ไพธอน

ภาพที่ 1:- Aspose.PDF Cloud SDK สำหรับแพ็คเกจ Python

Aspose.Cloud แดชบอร์ด

เนื่องจาก API ของเราสามารถเข้าถึงได้โดยบุคคลที่ได้รับอนุญาตเท่านั้น ดังนั้นขั้นตอนต่อไปคือการสร้างบัญชีบน แดชบอร์ด Aspose.Cloud หากคุณมีบัญชี GitHub หรือ Google เพียงลงทะเบียนหรือคลิกที่ปุ่ม สร้างบัญชีใหม่ และระบุข้อมูลที่จำเป็น ตอนนี้เข้าสู่ระบบแดชบอร์ดโดยใช้ข้อมูลรับรองและขยายส่วนแอปพลิเคชันจากแดชบอร์ดและเลื่อนลงไปที่ส่วนข้อมูลรับรองลูกค้าเพื่อดูรายละเอียดรหัสลูกค้าและรหัสลับลูกค้า

ข้อมูลรับรองลูกค้า

ภาพที่ 2:- ข้อมูลรับรองไคลเอนต์บนแดชบอร์ด Aspose.Cloud

Image PDF เป็น PDF ที่ค้นหาได้ใน Python

โปรดปฏิบัติตามขั้นตอนด้านล่างเพื่อดำเนินการ OCR กับเอกสาร PDF ที่สแกนแล้วบันทึกเป็นไฟล์ที่ค้นหาได้ (ทำให้ pdf สามารถค้นหาได้) ขั้นตอนเหล่านี้ช่วยให้เราพัฒนา OCR ออนไลน์ฟรีโดยใช้ Python

  • ขั้นแรก เราต้องสร้างอินสแตนซ์ของคลาส ApiClient โดยระบุรหัสไคลเอนต์ Client Secret เป็นอาร์กิวเมนต์
  • ประการที่สอง สร้างอินสแตนซ์ของคลาส PdfApi ซึ่งใช้วัตถุ ApiClient เป็นอาร์กิวเมนต์อินพุต
  • ตอนนี้เรียกเมธอด putsearchabledocument(..) ของคลาส PdfApi ซึ่งใช้ชื่อ PDF ที่ป้อนและพารามิเตอร์ทางเลือกที่ระบุภาษาของเอ็นจิ้น OCR
def ocrPDF():
    try:
        #Client credentials
        client_secret = "406b404b2df649611e508bbcfcd2a77f"
        client_id = "88d1cda8-b12c-4a80-b1ad-c85ac483c5c5"

        #initialize PdfApi client instance using client credetials
        pdf_api_client = asposepdfcloud.api_client.ApiClient(client_secret, client_id)

        # สร้างอินสแตนซ์ PdfApi ขณะที่ส่ง PdfApiClient เป็นอาร์กิวเมนต์
        pdf_api = PdfApi(pdf_api_client)

        #input PDF file name
        input_file = 'image-based-pdf-sample.pdf'

        # เรียกใช้ API เพื่อดำเนินการ OCR และบันทึกเอาต์พุตในที่เก็บข้อมูลบนคลาวด์
        response = pdf_api.put_searchable_document(name=input_file,lang='eng')

        # พิมพ์ข้อความในคอนโซล (ไม่บังคับ)
        print('Image PDF successfully converted to Text PDF !')    
    except ApiException as e:
        print("Exception while calling PdfApi: {0}".format(e))
        print("Code:" + str(e.code))
        print("Message:" + e.message)
แสดงตัวอย่าง PDF OCR

ภาพที่ 3:- ดูตัวอย่างการดำเนินการ PDF OCR

ในภาพด้านบน ส่วนด้านซ้ายแสดงถึงไฟล์ PDF ที่สแกนอินพุต และส่วนทางด้านขวาจะแสดงตัวอย่าง PDF แบบข้อความที่เป็นผลลัพธ์ ไฟล์ตัวอย่างที่ใช้ในตัวอย่างข้างต้นสามารถดาวน์โหลดได้จาก image-based-pdf-sample.pdf และ OCR-Result.pdf

OCR ออนไลน์โดยใช้คำสั่ง cURL

นอกจากนี้ยังสามารถเข้าถึง REST API ผ่านคำสั่ง cURL และเนื่องจาก Cloud API ของเราใช้สถาปัตยกรรม REST เราจึงสามารถใช้คำสั่ง cURL เพื่อดำเนินการ PDF OCR ทางออนไลน์ได้ อย่างไรก็ตาม ก่อนดำเนินการแปลง เราจำเป็นต้องสร้าง JSON Web Token (JWT) ตามข้อมูลรับรองไคลเอนต์แต่ละรายการของคุณที่ระบุบนแดชบอร์ด Aspose.Cloud เป็นสิ่งที่จำเป็นเนื่องจาก API ของเราเข้าถึงได้เฉพาะผู้ใช้ที่ลงทะเบียนเท่านั้น โปรดดำเนินการคำสั่งต่อไปนี้เพื่อสร้างโทเค็น JWT

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=88d1cda8-b12c-4a80-b1ad-c85ac483c5c5&client_secret=406b404b2df649611e508bbcfcd2a77f" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

เมื่อเรามีโทเค็น JWT แล้ว โปรดดำเนินการคำสั่งต่อไปนี้เพื่อดำเนินการ OCR และบันทึกผลลัพธ์ในที่เก็บข้อมูลบนคลาวด์เดียวกัน

curl -v -X PUT "https://api.aspose.cloud/v3.0/pdf/image-based-pdf-sample.pdf/ocr" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>"

บทสรุป

ในบทความนี้ เราได้กล่าวถึงขั้นตอนในการ Image PDF เป็น PDF ที่ค้นหาได้โดยใช้ Python code snippet เรายังได้สำรวจรายละเอียดเกี่ยวกับวิธีดำเนินการ OCR Online โดยใช้คำสั่ง cURL เนื่องจาก Cloud SDK ของเราได้รับการพัฒนาภายใต้ใบอนุญาต MIT ดังนั้นคุณจึงสามารถดาวน์โหลดข้อมูลโค้ดทั้งหมดได้จาก GitHub และอัปเดตข้อมูลดังกล่าวตามความต้องการของคุณ เราขอแนะนำให้คุณสำรวจ คู่มือสำหรับนักพัฒนาซอฟต์แวร์ เพื่อเรียนรู้เพิ่มเติมเกี่ยวกับคุณสมบัติที่น่าตื่นเต้นอื่นๆ ที่ Cloud API นำเสนออยู่ในปัจจุบัน

ในกรณีที่คุณมีคำถามที่เกี่ยวข้องหรือพบปัญหาใดๆ ขณะใช้ API ของเรา โปรดติดต่อเราผ่าน ฟอรัมสนับสนุนลูกค้าฟรี

บทความที่เกี่ยวข้อง

เราขอแนะนำให้อ่านบทความต่อไปนี้เพื่อเรียนรู้เพิ่มเติม