ดึงข้อความจาก PDF โดยใช้ Python REST API

pdf เป็นข้อความ — วิธีการแปลง PDF เป็นข้อความใน Python

โลกดิจิทัลในปัจจุบันมีข้อมูลมากมาย และความสามารถในการแยกข้อความจากเอกสาร PDF กลายมาไม่เพียงแต่ความสะดวกสบายแต่ยังเป็นสิ่งจำเป็นอีกด้วย ลองนึกภาพว่าคุณกำลังคัดแยกไฟล์ PDF ที่ยาวเพื่อค้นหาข้อมูลสำคัญเพื่ออ้างอิงในการค้นคว้า หรือบางทีคุณอาจกำลังจัดการคลังเอกสารและพยายามแยกข้อมูลสำหรับการวิเคราะห์ ในสถานการณ์เหล่านี้และสถานการณ์อื่นๆ อีกมากมาย ความสามารถในการแปลงเนื้อหา PDF เป็นข้อความธรรมดาได้อย่างง่ายดายถือเป็นตัวเปลี่ยนเกม บทความนี้จะอธิบายจุดประสงค์ที่สำคัญและประโยชน์ที่ไม่อาจปฏิเสธได้ของการแยกข้อความจาก PDF โดยใช้ Python Cloud SDK การเปลี่ยนแปลงนี้ช่วยให้บุคคลและองค์กรต่างๆ สามารถจัดการ วิเคราะห์ และใช้เนื้อหาดิจิทัลได้อย่างมีประสิทธิภาพในโลกที่ข้อมูลมีความสำคัญอย่างยิ่ง

REST API การแปลง PDF เป็นข้อความ
การแยกข้อความจาก PDF ใน Python
การแปลง PDF เป็นข้อความโดยใช้คำสั่ง cURL

REST API การแปลง PDF เป็นข้อความ

การแยกข้อความจากเอกสาร PDF ทำได้ราบรื่นและมีประสิทธิภาพด้วย Aspose.PDF Cloud SDK for Python SDK อเนกประสงค์นี้ช่วยให้คุณสามารถแปลงเนื้อหา PDF เป็นข้อความธรรมดาได้อย่างง่ายดาย ช่วยปลดล็อกข้อมูลที่จัดเก็บไว้ในเอกสารดิจิทัลเหล่านี้

คุณสามารถดาวน์โหลด Cloud SDK ได้ฟรีที่คลังข้อมูล PIP และ GitHub จากนั้นให้ดำเนินการคำสั่งต่อไปนี้บนเทอร์มินัล/พรอมต์คำสั่งเพื่อติดตั้ง SDK เวอร์ชันล่าสุด:

 pip install asposepdfcloud

หากคุณใช้ PyCharm IDE คุณสามารถเพิ่ม SDK เป็นส่วนที่ต้องมีในโปรเจ็กต์ของคุณได้โดยตรง

ไฟล์ ->การตั้งค่า ->โปรเจ็กต์ ->Python Interpreter ->asposepdfcloud

หลังจากติดตั้งแล้ว ขั้นตอนสำคัญต่อไปคือการสมัครใช้บริการคลาวด์ฟรีผ่าน Aspose.Cloud Dashboard หากคุณมีบัญชี GitHub หรือ Google เพียงลงทะเบียน หรือคลิกปุ่ม Create a new Account จากนั้นเข้าสู่ระบบแดชบอร์ดและรับรหัสไคลเอนต์และรายละเอียดความลับไคลเอนต์ส่วนตัวของคุณ

การแยกข้อความจาก PDF ใน Python

โปรดปฏิบัติตามคำแนะนำด้านล่างเพื่อแยกข้อความจากเอกสาร PDF โดยใช้ Python SDK

ขั้นแรก ให้สร้างอินสแตนซ์ของคลาส ApiClient โดยระบุรหัสไคลเอนต์และรหัสลับไคลเอนต์เป็นอาร์กิวเมนต์
ประการที่สอง สร้างอินสแตนซ์ของคลาส PdfApi ซึ่งรับ ApiClient เป็นอาร์กิวเมนต์อินพุต
ตอนนี้เรียกใช้เมธอด gettext(…) ในขณะที่ระบุพิกัด LLX, LLY, URX และ URY

def extractText():
    try:
        #Client credentials
        client_secret = "1c9379bb7d701c26cc87e741a29987bb"
        client_id = "bbf94a2c-6d7e-4020-b4d2-b9809741374e"

        #initialize PdfApi client instance using client credetials
        pdf_api_client = asposepdfcloud.api_client.ApiClient(client_secret, client_id)

        # สร้างอินสแตนซ์ PdfApi ขณะส่ง PdfApiClient เป็นอาร์กิวเมนต์
        pdf_api = PdfApi(pdf_api_client)

        #source image file
        input_file = 'awesomeTable.pdf'
        
        # เรียกใช้เมธอดเพื่อแยกข้อความ
        response = pdf_api.get_text(name = input_file, llx=0,lly=0, urx=800, ury =800)
        print(response)
        
        # พิมพ์ข้อความในคอนโซล (ทางเลือก)
        print('Text Extracted successfully from PDF !')    
    except ApiException as e:
        print("Exception while calling PdfApi: {0}".format(e))
        print("Code:" + str(e.code))
        print("Message:" + e.message)

ตัวอย่างการแปลง PDF เป็นข้อความ — รูปภาพ 1:- การดูตัวอย่าง PDF เป็นข้อความ

ในกรณีที่คุณต้องการแยกข้อความจากหน้าใดหน้าหนึ่งของเอกสาร โปรดลองใช้ GetPageText API ซึ่งใช้ pageNumber เป็นอาร์กิวเมนต์

การแปลง PDF เป็นข้อความโดยใช้คำสั่ง cURL

สัมผัสประสบการณ์การแปลงเนื้อหา PDF เป็นข้อความธรรมดาอย่างราบรื่นด้วยชุดคำสั่ง Aspose.PDF Cloud และ cURL ที่ทรงพลัง การผสานรวมแบบไดนามิกนี้ไม่เพียงช่วยลดความซับซ้อนในการแปลง PDF เป็นข้อความเท่านั้น แต่ยังมอบข้อดีหลายประการที่ช่วยยกระดับประสบการณ์การจัดการเอกสารและการแยกข้อความของคุณอีกด้วย

โปรดทราบว่าข้อกำหนดเบื้องต้นภายใต้แนวทางนี้คือการสร้าง JSON Web Token (JWT) ตามข้อมูลประจำตัวไคลเอนต์ของคุณ ขั้นตอนนี้จำเป็นเนื่องจาก API ของเราสามารถเข้าถึงได้โดยผู้ใช้ที่ลงทะเบียนเท่านั้น โปรดดำเนินการคำสั่งต่อไปนี้เพื่อสร้าง JWT token

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bbf94a2c-6d7e-4020-b4d2-b9809741374e&client_secret=1c9379bb7d701c26cc87e741a29987bb" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

เมื่อเรามีโทเค็น JWT แล้ว เราสามารถใช้คำสั่งต่อไปนี้เพื่อแปลง PDF เป็นข้อความโดยแยกเนื้อหาข้อความทั้งหมด ผลลัพธ์จะถูกบันทึกเป็นไฟล์ข้อความธรรมดาในไดรฟ์ภายในเครื่อง

curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/awesomeTable.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>" \
-o Extracted.txt

ตัวอย่างที่ใช้ในตัวอย่างข้างต้นสามารถดาวน์โหลดได้จาก awesomeTable.pdf

บทสรุป

การแยกข้อความจากเอกสาร PDF ถือเป็นข้อกำหนดที่สำคัญในโลกที่มีข้อมูลดิจิทัลมากมาย ในการสำรวจกระบวนการนี้ เราได้ตรวจสอบเส้นทางแบบไดนามิกสองเส้นทาง เส้นทางหนึ่งคือผ่าน Aspose.PDF Cloud SDK สำหรับ Python ที่ใช้งานได้หลากหลาย และอีกเส้นทางหนึ่งคือผ่านชุดคำสั่ง Aspose.PDF Cloud และ cURL ที่ทรงพลัง

ทั้งสองแนวทางนี้จะช่วยเชื่อมช่องว่างระหว่างเนื้อหา PDF แบบคงที่และข้อความแบบไดนามิก เพิ่มประสิทธิภาพในการจัดการ วิเคราะห์ และใช้ประโยชน์จากข้อมูลดิจิทัล ไม่ว่าคุณจะเลือกความซับซ้อนของ SDK หรือความเรียบง่ายของคำสั่ง cURL ทั้งสองแนวทางนี้จะนำไปสู่การแปลง PDF เป็นข้อความอย่างมีประสิทธิภาพ ช่วยให้คุณสามารถปลดล็อกข้อมูลข้อความจำนวนมากที่ซ่อนอยู่ในเอกสาร PDF ได้

บทความที่เกี่ยวข้อง

เราขอแนะนำให้เยี่ยมชมลิงค์ต่อไปนี้เพื่อเรียนรู้เพิ่มเติมเกี่ยวกับ:

REST API การแปลง PDF เป็นข้อความ#

การแยกข้อความจาก PDF ใน Python#

การแปลง PDF เป็นข้อความโดยใช้คำสั่ง cURL#

บทสรุป#

บทความที่เกี่ยวข้อง#

REST API การแปลง PDF เป็นข้อความ

การแยกข้อความจาก PDF ใน Python

การแปลง PDF เป็นข้อความโดยใช้คำสั่ง cURL

บทสรุป

บทความที่เกี่ยวข้อง