
วิธีการแปลง PDF เป็นข้อความใน Python
โลกดิจิทัลในปัจจุบันมีข้อมูลมากมาย และความสามารถในการแยกข้อความจากเอกสาร PDF กลายมาไม่เพียงแต่ความสะดวกสบายแต่ยังเป็นสิ่งจำเป็นอีกด้วย ลองนึกภาพว่าคุณกำลังคัดแยกไฟล์ PDF ที่ยาวเพื่อค้นหาข้อมูลสำคัญเพื่ออ้างอิงในการค้นคว้า หรือบางทีคุณอาจกำลังจัดการคลังเอกสารและพยายามแยกข้อมูลสำหรับการวิเคราะห์ ในสถานการณ์เหล่านี้และสถานการณ์อื่นๆ อีกมากมาย ความสามารถในการแปลงเนื้อหา PDF เป็นข้อความธรรมดาได้อย่างง่ายดายถือเป็นตัวเปลี่ยนเกม บทความนี้จะอธิบายจุดประสงค์ที่สำคัญและประโยชน์ที่ไม่อาจปฏิเสธได้ของการแยกข้อความจาก PDF โดยใช้ Python Cloud SDK การเปลี่ยนแปลงนี้ช่วยให้บุคคลและองค์กรต่างๆ สามารถจัดการ วิเคราะห์ และใช้เนื้อหาดิจิทัลได้อย่างมีประสิทธิภาพในโลกที่ข้อมูลมีความสำคัญอย่างยิ่ง
- REST API การแปลง PDF เป็นข้อความ
- การแยกข้อความจาก PDF ใน Python
- การแปลง PDF เป็นข้อความโดยใช้คำสั่ง cURL
REST API การแปลง PDF เป็นข้อความ
การแยกข้อความจากเอกสาร PDF ทำได้ราบรื่นและมีประสิทธิภาพด้วย Aspose.PDF Cloud SDK for Python SDK อเนกประสงค์นี้ช่วยให้คุณสามารถแปลงเนื้อหา PDF เป็นข้อความธรรมดาได้อย่างง่ายดาย ช่วยปลดล็อกข้อมูลที่จัดเก็บไว้ในเอกสารดิจิทัลเหล่านี้
คุณสามารถดาวน์โหลด Cloud SDK ได้ฟรีที่คลังข้อมูล PIP และ GitHub จากนั้นให้ดำเนินการคำสั่งต่อไปนี้บนเทอร์มินัล/พรอมต์คำสั่งเพื่อติดตั้ง SDK เวอร์ชันล่าสุด:
pip install asposepdfcloud
หากคุณใช้ PyCharm IDE คุณสามารถเพิ่ม SDK เป็นส่วนที่ต้องมีในโปรเจ็กต์ของคุณได้โดยตรง
ไฟล์ ->การตั้งค่า ->โปรเจ็กต์ ->Python Interpreter ->asposepdfcloud
หลังจากติดตั้งแล้ว ขั้นตอนสำคัญต่อไปคือการสมัครใช้บริการคลาวด์ฟรีผ่าน Aspose.Cloud Dashboard หากคุณมีบัญชี GitHub หรือ Google เพียงลงทะเบียน หรือคลิกปุ่ม Create a new Account จากนั้นเข้าสู่ระบบแดชบอร์ดและรับรหัสไคลเอนต์และรายละเอียดความลับไคลเอนต์ส่วนตัวของคุณ
การแยกข้อความจาก PDF ใน Python
โปรดปฏิบัติตามคำแนะนำด้านล่างเพื่อแยกข้อความจากเอกสาร PDF โดยใช้ Python SDK
- ขั้นแรก ให้สร้างอินสแตนซ์ของคลาส ApiClient โดยระบุรหัสไคลเอนต์และรหัสลับไคลเอนต์เป็นอาร์กิวเมนต์
- ประการที่สอง สร้างอินสแตนซ์ของคลาส PdfApi ซึ่งรับ ApiClient เป็นอาร์กิวเมนต์อินพุต
- ตอนนี้เรียกใช้เมธอด gettext(…) ในขณะที่ระบุพิกัด LLX, LLY, URX และ URY
def extractText():
try:
#Client credentials
client_secret = "1c9379bb7d701c26cc87e741a29987bb"
client_id = "bbf94a2c-6d7e-4020-b4d2-b9809741374e"
#initialize PdfApi client instance using client credetials
pdf_api_client = asposepdfcloud.api_client.ApiClient(client_secret, client_id)
# สร้างอินสแตนซ์ PdfApi ขณะส่ง PdfApiClient เป็นอาร์กิวเมนต์
pdf_api = PdfApi(pdf_api_client)
#source image file
input_file = 'awesomeTable.pdf'
# เรียกใช้เมธอดเพื่อแยกข้อความ
response = pdf_api.get_text(name = input_file, llx=0,lly=0, urx=800, ury =800)
print(response)
# พิมพ์ข้อความในคอนโซล (ทางเลือก)
print('Text Extracted successfully from PDF !')
except ApiException as e:
print("Exception while calling PdfApi: {0}".format(e))
print("Code:" + str(e.code))
print("Message:" + e.message)

รูปภาพ 1:- การดูตัวอย่าง PDF เป็นข้อความ
ในกรณีที่คุณต้องการแยกข้อความจากหน้าใดหน้าหนึ่งของเอกสาร โปรดลองใช้ GetPageText API ซึ่งใช้ pageNumber เป็นอาร์กิวเมนต์
การแปลง PDF เป็นข้อความโดยใช้คำสั่ง cURL
สัมผัสประสบการณ์การแปลงเนื้อหา PDF เป็นข้อความธรรมดาอย่างราบรื่นด้วยชุดคำสั่ง Aspose.PDF Cloud และ cURL ที่ทรงพลัง การผสานรวมแบบไดนามิกนี้ไม่เพียงช่วยลดความซับซ้อนในการแปลง PDF เป็นข้อความเท่านั้น แต่ยังมอบข้อดีหลายประการที่ช่วยยกระดับประสบการณ์การจัดการเอกสารและการแยกข้อความของคุณอีกด้วย
โปรดทราบว่าข้อกำหนดเบื้องต้นภายใต้แนวทางนี้คือการสร้าง JSON Web Token (JWT) ตามข้อมูลประจำตัวไคลเอนต์ของคุณ ขั้นตอนนี้จำเป็นเนื่องจาก API ของเราสามารถเข้าถึงได้โดยผู้ใช้ที่ลงทะเบียนเท่านั้น โปรดดำเนินการคำสั่งต่อไปนี้เพื่อสร้าง JWT token
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bbf94a2c-6d7e-4020-b4d2-b9809741374e&client_secret=1c9379bb7d701c26cc87e741a29987bb" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
เมื่อเรามีโทเค็น JWT แล้ว เราสามารถใช้คำสั่งต่อไปนี้เพื่อแปลง PDF เป็นข้อความโดยแยกเนื้อหาข้อความทั้งหมด ผลลัพธ์จะถูกบันทึกเป็นไฟล์ข้อความธรรมดาในไดรฟ์ภายในเครื่อง
curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/awesomeTable.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H "accept: application/json" \
-H "authorization: Bearer <JWT Token>" \
-o Extracted.txt
ตัวอย่างที่ใช้ในตัวอย่างข้างต้นสามารถดาวน์โหลดได้จาก awesomeTable.pdf
บทสรุป
การแยกข้อความจากเอกสาร PDF ถือเป็นข้อกำหนดที่สำคัญในโลกที่มีข้อมูลดิจิทัลมากมาย ในการสำรวจกระบวนการนี้ เราได้ตรวจสอบเส้นทางแบบไดนามิกสองเส้นทาง เส้นทางหนึ่งคือผ่าน Aspose.PDF Cloud SDK สำหรับ Python ที่ใช้งานได้หลากหลาย และอีกเส้นทางหนึ่งคือผ่านชุดคำสั่ง Aspose.PDF Cloud และ cURL ที่ทรงพลัง
ทั้งสองแนวทางนี้จะช่วยเชื่อมช่องว่างระหว่างเนื้อหา PDF แบบคงที่และข้อความแบบไดนามิก เพิ่มประสิทธิภาพในการจัดการ วิเคราะห์ และใช้ประโยชน์จากข้อมูลดิจิทัล ไม่ว่าคุณจะเลือกความซับซ้อนของ SDK หรือความเรียบง่ายของคำสั่ง cURL ทั้งสองแนวทางนี้จะนำไปสู่การแปลง PDF เป็นข้อความอย่างมีประสิทธิภาพ ช่วยให้คุณสามารถปลดล็อกข้อมูลข้อความจำนวนมากที่ซ่อนอยู่ในเอกสาร PDF ได้
บทความที่เกี่ยวข้อง
เราขอแนะนำให้เยี่ยมชมลิงค์ต่อไปนี้เพื่อเรียนรู้เพิ่มเติมเกี่ยวกับ: