
نحوه تبدیل PDF به متن در پایتون
دنیای دیجیتال امروزی اطلاعات فراوانی دارد و توانایی استخراج متن از اسناد PDF نه تنها به یک راحتی بلکه به یک ضرورت تبدیل شده است. تصور کنید در حال بررسی یک فایل طولانی PDF هستید، به دنبال آن بخش مهمی از اطلاعات برای استناد در تحقیق خود هستید، یا شاید در حال مدیریت مخزنی از اسناد هستید و به دنبال استخراج داده ها برای تجزیه و تحلیل هستید. در این سناریوها و بسیاری موارد دیگر، قابلیت تبدیل بی دردسر محتوای PDF به متن ساده به عنوان یک تغییر دهنده بازی ظاهر می شود. این مقاله به بررسی هدف عمیق و مزایای غیرقابل انکار استخراج متن از فایل های PDF با استفاده از Python Cloud SDK می پردازد. این دگرگونی به افراد و سازمانها قدرت میدهد تا در دنیایی که اطلاعات از اهمیت زیادی برخوردار است، محتوای دیجیتالی را به طور کارآمد مدیریت، تجزیه و تحلیل و استفاده کنند.
- تبدیل PDF به متن REST API
- متن را از PDF در پایتون استخراج کنید
- تبدیل PDF به متن با استفاده از دستور cURL
تبدیل PDF به متن REST API
دستیابی به استخراج متن از اسناد PDF با Aspose.PDF Cloud SDK for Python یکپارچه و کارآمد است. این SDK همه کاره به شما امکان می دهد بدون زحمت محتوای PDF را به متن ساده تبدیل کنید و قفل اطلاعات ذخیره شده در این اسناد دیجیتال را باز کنید.
Cloud SDK برای دانلود رایگان از طریق مخزن PIP و GitHub در دسترس است. اکنون برای نصب آخرین نسخه SDK دستور زیر را در ترمینال/خط فرمان اجرا کنید:
pip install asposepdfcloud
اگر از PyCharm IDE استفاده می کنید، می توانید مستقیماً SDK را به عنوان یک وابستگی در پروژه خود اضافه کنید.
فایل ->تنظیمات ->پروژه ->مترجم پایتون ->asposepdfcloud
پس از نصب، گام مهم بعدی اشتراک رایگان خدمات ابری ما از طریق Aspose.Cloud dashboard است. اگر حساب GitHub یا Google دارید، به سادگی ثبت نام کنید یا روی دکمه Create a new Account کلیک کنید. اکنون وارد داشبورد شوید و شناسه مشتری شخصی و جزئیات Client Secret را دریافت کنید.
متن را از PDF در پایتون استخراج کنید
لطفاً دستورالعملهای زیر را برای استخراج متن از اسناد PDF با استفاده از Python SDK دنبال کنید.
- ابتدا یک نمونه از کلاس ApiClient ایجاد کنید و در عین حال Client ID Client Secret را به عنوان آرگومان ارائه دهید.
- در مرحله دوم، یک نمونه از کلاس PdfApi ایجاد کنید که شی ApiClient را به عنوان آرگومان ورودی دریافت کند.
- اکنون با ارائه مختصات LLX، LLY، URX و URY، متد gettext(…) را فراخوانی کنید.
def extractText():
try:
#Client credentials
client_secret = "1c9379bb7d701c26cc87e741a29987bb"
client_id = "bbf94a2c-6d7e-4020-b4d2-b9809741374e"
#initialize PdfApi client instance using client credetials
pdf_api_client = asposepdfcloud.api_client.ApiClient(client_secret, client_id)
# هنگام ارسال PdfApiClient به عنوان آرگومان، نمونه PdfApi ایجاد کنید
pdf_api = PdfApi(pdf_api_client)
#source image file
input_file = 'awesomeTable.pdf'
# متد را برای استخراج متن فراخوانی کنید
response = pdf_api.get_text(name = input_file, llx=0,lly=0, urx=800, ury =800)
print(response)
# چاپ پیام در کنسول (اختیاری)
print('Text Extracted successfully from PDF !')
except ApiException as e:
print("Exception while calling PdfApi: {0}".format(e))
print("Code:" + str(e.code))
print("Message:" + e.message)

تصویر 1: - پیش نمایش PDF به متن.
در صورت نیاز به استخراج متن از صفحه خاصی از سند، لطفاً از API GetPageText استفاده کنید که pageNumber را به عنوان آرگومان میگیرد.
تبدیل PDF به متن با استفاده از دستور cURL
با استفاده از ترکیب قدرتمند Aspose.PDF Cloud و دستورات cURL، تبدیل یکپارچه محتوای PDF به متن ساده را تجربه کنید. این ادغام پویا نه تنها تبدیل PDF به متن را ساده می کند، بلکه چندین مزیت را نیز ارائه می دهد که مدیریت سند و تجربه استخراج متن شما را افزایش می دهد.
لطفاً توجه داشته باشید که یک پیش نیاز تحت این رویکرد، ایجاد یک رمز وب JSON (JWT) بر اساس اعتبار مشتری شما است. این مرحله اجباری است زیرا API های ما فقط برای کاربران ثبت نام شده قابل دسترسی است. لطفا دستور زیر را برای تولید توکن JWT اجرا کنید.
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bbf94a2c-6d7e-4020-b4d2-b9809741374e&client_secret=1c9379bb7d701c26cc87e741a29987bb" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
هنگامی که توکن JWT را داریم، میتوانیم از دستور زیر برای تبدیل PDF به متن با استخراج تمام محتوای متنی استفاده کنیم. خروجی به عنوان یک فایل متنی ساده در درایو محلی ذخیره می شود.
curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/awesomeTable.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H "accept: application/json" \
-H "authorization: Bearer <JWT Token>" \
-o Extracted.txt
نمونه استفاده شده در مثال بالا را می توان از awesomeTable.pdf دانلود کرد.
نتیجه گیری
استخراج متن از اسناد PDF یک نیاز حیاتی در دنیایی مملو از اطلاعات دیجیتال است. در کاوش خود در این فرآیند، دو مسیر پویا را بررسی کرده ایم: یکی از طریق Aspose.PDF Cloud SDK همه کاره برای پایتون، و دیگری از طریق ترکیب قدرتمند Aspose.PDF Cloud و دستورات cURL.
هر دو رویکرد، شکاف بین محتوای PDF ثابت و متن پویا را پر میکنند و نحوه مدیریت، تجزیه و تحلیل و استفاده از اطلاعات دیجیتال را بهبود میبخشند. چه پیچیدگی SDK یا سادگی دستورات cURL را انتخاب کنید، هر دو مسیر به تبدیل PDF به متن کارآمد منجر میشوند و به شما این امکان را میدهند که انبوهی از دادههای متنی پنهان در اسناد PDF را باز کنید.
مقالات مرتبط
همچنین توصیه می کنیم برای کسب اطلاعات بیشتر به لینک های زیر مراجعه کنید: