
Cách chuyển đổi PDF sang Văn bản trong Python
Thế giới kỹ thuật số ngày nay có rất nhiều thông tin và khả năng trích xuất văn bản từ các tài liệu PDF không chỉ là một tiện ích mà còn là một nhu cầu thiết yếu. Hãy tưởng tượng bạn đang sàng lọc một tệp PDF dài, tìm kiếm thông tin quan trọng để trích dẫn trong nghiên cứu của mình hoặc có lẽ bạn đang quản lý một kho lưu trữ tài liệu, tìm cách trích xuất dữ liệu để phân tích. Trong những tình huống này và nhiều tình huống khác nữa, khả năng chuyển đổi nội dung PDF sang văn bản thuần túy một cách dễ dàng nổi lên như một bước ngoặt. Bài viết này khám phá mục đích sâu sắc và những lợi ích không thể phủ nhận của việc trích xuất văn bản từ PDF bằng Python Cloud SDK. Sự chuyển đổi này trao quyền cho các cá nhân và tổ chức để quản lý, phân tích và sử dụng nội dung kỹ thuật số một cách hiệu quả trong một thế giới mà thông tin có tầm quan trọng sâu sắc.
- API REST chuyển đổi PDF sang văn bản
- Trích xuất văn bản từ PDF bằng Python
- Chuyển đổi PDF sang Văn bản bằng Lệnh cURL
API REST chuyển đổi PDF sang văn bản
Việc trích xuất văn bản từ các tài liệu PDF trở nên liền mạch và hiệu quả với Aspose.PDF Cloud SDK for Python. SDK đa năng này cho phép bạn dễ dàng chuyển đổi nội dung PDF thành văn bản thuần túy, mở khóa thông tin được lưu trữ trong các tài liệu kỹ thuật số này.
Cloud SDK có sẵn để tải xuống miễn phí qua kho lưu trữ PIP và GitHub. Bây giờ hãy thực hiện lệnh sau trên terminal/dấu nhắc lệnh để cài đặt phiên bản SDK mới nhất:
pip install asposepdfcloud
Nếu bạn đang sử dụng PyCharm IDE, bạn có thể trực tiếp thêm SDK dưới dạng phần phụ thuộc vào dự án của mình.
Tệp ->Cài đặt ->Dự án ->Trình thông dịch Python ->asposepdfcloud
Sau khi cài đặt, bước quan trọng tiếp theo là đăng ký miễn phí dịch vụ đám mây của chúng tôi thông qua Bảng điều khiển Aspose.Cloud. Nếu bạn có tài khoản GitHub hoặc Google, chỉ cần Đăng ký hoặc nhấp vào nút Tạo tài khoản mới. Bây giờ hãy đăng nhập vào bảng điều khiển và lấy thông tin chi tiết về Client ID và Client Secret được cá nhân hóa của bạn.
Trích xuất văn bản từ PDF bằng Python
Vui lòng làm theo hướng dẫn bên dưới để trích xuất văn bản từ tài liệu PDF bằng Python SDK.
- Đầu tiên, tạo một thể hiện của lớp ApiClient trong khi cung cấp Client ID và Client Secret làm đối số.
- Thứ hai, tạo một thể hiện của lớp PdfApi lấy đối tượng ApiClient làm đối số đầu vào.
- Bây giờ hãy gọi phương thức gettext(…) trong khi cung cấp tọa độ LLX, LLY, URX và URY.
def extractText():
try:
#Client credentials
client_secret = "1c9379bb7d701c26cc87e741a29987bb"
client_id = "bbf94a2c-6d7e-4020-b4d2-b9809741374e"
#initialize PdfApi client instance using client credetials
pdf_api_client = asposepdfcloud.api_client.ApiClient(client_secret, client_id)
# tạo phiên bản PdfApi trong khi truyền PdfApiClient làm đối số
pdf_api = PdfApi(pdf_api_client)
#source image file
input_file = 'awesomeTable.pdf'
# Gọi phương thức để trích xuất văn bản
response = pdf_api.get_text(name = input_file, llx=0,lly=0, urx=800, ury =800)
print(response)
# in tin nhắn trong bảng điều khiển (tùy chọn)
print('Text Extracted successfully from PDF !')
except ApiException as e:
print("Exception while calling PdfApi: {0}".format(e))
print("Code:" + str(e.code))
print("Message:" + e.message)

Hình ảnh 1:- Xem trước PDF thành Văn bản.
Trong trường hợp bạn cần trích xuất văn bản từ một trang cụ thể của tài liệu, vui lòng thử sử dụng API GetPageText lấy pageNumber làm đối số.
Chuyển đổi PDF sang Văn bản bằng Lệnh cURL
Trải nghiệm quá trình chuyển đổi liền mạch nội dung PDF thành văn bản thuần túy bằng cách sử dụng sự kết hợp mạnh mẽ của Aspose.PDF Cloud và các lệnh cURL. Sự tích hợp năng động này không chỉ đơn giản hóa quá trình chuyển đổi PDF sang văn bản mà còn mang lại một số lợi ích giúp nâng cao trải nghiệm quản lý tài liệu và trích xuất văn bản của bạn.
Xin lưu ý rằng điều kiện tiên quyết theo cách tiếp cận này là tạo JSON Web Token (JWT) dựa trên thông tin xác thực của khách hàng. Bước này là bắt buộc vì API của chúng tôi chỉ có thể truy cập được đối với người dùng đã đăng ký. Vui lòng thực hiện lệnh sau để tạo mã thông báo JWT.
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bbf94a2c-6d7e-4020-b4d2-b9809741374e&client_secret=1c9379bb7d701c26cc87e741a29987bb" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
Sau khi có mã thông báo JWT, chúng ta có thể sử dụng lệnh sau để chuyển đổi PDF sang văn bản bằng cách trích xuất tất cả nội dung văn bản. Đầu ra được lưu dưới dạng tệp văn bản thuần túy trên ổ đĩa cục bộ.
curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/awesomeTable.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H "accept: application/json" \
-H "authorization: Bearer <JWT Token>" \
-o Extracted.txt
Mẫu được sử dụng trong ví dụ trên có thể được tải xuống từ awesomeTable.pdf.
Phần kết luận
Trích xuất văn bản từ tài liệu PDF là một yêu cầu quan trọng trong một thế giới tràn ngập thông tin kỹ thuật số. Trong quá trình khám phá quy trình này, chúng tôi đã xem xét hai con đường năng động: một là thông qua Aspose.PDF Cloud SDK đa năng cho Python và con đường còn lại thông qua sự kết hợp mạnh mẽ của Aspose.PDF Cloud và lệnh cURL.
Cả hai cách tiếp cận đều thu hẹp khoảng cách giữa nội dung PDF tĩnh và văn bản động, nâng cao cách chúng ta quản lý, phân tích và sử dụng thông tin kỹ thuật số. Cho dù bạn chọn sự tinh vi của SDK hay sự đơn giản của các lệnh cURL, cả hai con đường đều dẫn đến chuyển đổi PDF sang văn bản hiệu quả, giúp bạn mở khóa kho dữ liệu văn bản ẩn trong các tài liệu PDF.
Bài viết liên quan
Chúng tôi cũng khuyên bạn nên truy cập vào các liên kết sau để tìm hiểu thêm về: