استخراج متن از PDF با استفاده از Python REST API

pdf به متن — نحوه تبدیل PDF به متن در پایتون

دنیای دیجیتال امروزی اطلاعات فراوانی دارد و توانایی استخراج متن از اسناد PDF نه تنها به یک راحتی بلکه به یک ضرورت تبدیل شده است. تصور کنید در حال بررسی یک فایل طولانی PDF هستید، به دنبال آن بخش مهمی از اطلاعات برای استناد در تحقیق خود هستید، یا شاید در حال مدیریت مخزنی از اسناد هستید و به دنبال استخراج داده ها برای تجزیه و تحلیل هستید. در این سناریوها و بسیاری موارد دیگر، قابلیت تبدیل بی دردسر محتوای PDF به متن ساده به عنوان یک تغییر دهنده بازی ظاهر می شود. این مقاله به بررسی هدف عمیق و مزایای غیرقابل انکار استخراج متن از فایل های PDF با استفاده از Python Cloud SDK می پردازد. این دگرگونی به افراد و سازمان‌ها قدرت می‌دهد تا در دنیایی که اطلاعات از اهمیت زیادی برخوردار است، محتوای دیجیتالی را به طور کارآمد مدیریت، تجزیه و تحلیل و استفاده کنند.

تبدیل PDF به متن REST API
متن را از PDF در پایتون استخراج کنید
تبدیل PDF به متن با استفاده از دستور cURL

تبدیل PDF به متن REST API

دستیابی به استخراج متن از اسناد PDF با Aspose.PDF Cloud SDK for Python یکپارچه و کارآمد است. این SDK همه کاره به شما امکان می دهد بدون زحمت محتوای PDF را به متن ساده تبدیل کنید و قفل اطلاعات ذخیره شده در این اسناد دیجیتال را باز کنید.

Cloud SDK برای دانلود رایگان از طریق مخزن PIP و GitHub در دسترس است. اکنون برای نصب آخرین نسخه SDK دستور زیر را در ترمینال/خط فرمان اجرا کنید:

 pip install asposepdfcloud

اگر از PyCharm IDE استفاده می کنید، می توانید مستقیماً SDK را به عنوان یک وابستگی در پروژه خود اضافه کنید.

فایل ->تنظیمات ->پروژه ->مترجم پایتون ->asposepdfcloud

پس از نصب، گام مهم بعدی اشتراک رایگان خدمات ابری ما از طریق Aspose.Cloud dashboard است. اگر حساب GitHub یا Google دارید، به سادگی ثبت نام کنید یا روی دکمه Create a new Account کلیک کنید. اکنون وارد داشبورد شوید و شناسه مشتری شخصی و جزئیات Client Secret را دریافت کنید.

متن را از PDF در پایتون استخراج کنید

لطفاً دستورالعمل‌های زیر را برای استخراج متن از اسناد PDF با استفاده از Python SDK دنبال کنید.

ابتدا یک نمونه از کلاس ApiClient ایجاد کنید و در عین حال Client ID Client Secret را به عنوان آرگومان ارائه دهید.
در مرحله دوم، یک نمونه از کلاس PdfApi ایجاد کنید که شی ApiClient را به عنوان آرگومان ورودی دریافت کند.
اکنون با ارائه مختصات LLX، LLY، URX و URY، متد gettext(…) را فراخوانی کنید.

def extractText():
    try:
        #Client credentials
        client_secret = "1c9379bb7d701c26cc87e741a29987bb"
        client_id = "bbf94a2c-6d7e-4020-b4d2-b9809741374e"

        #initialize PdfApi client instance using client credetials
        pdf_api_client = asposepdfcloud.api_client.ApiClient(client_secret, client_id)

        # هنگام ارسال PdfApiClient به عنوان آرگومان، نمونه PdfApi ایجاد کنید
        pdf_api = PdfApi(pdf_api_client)

        #source image file
        input_file = 'awesomeTable.pdf'
        
        # متد را برای استخراج متن فراخوانی کنید
        response = pdf_api.get_text(name = input_file, llx=0,lly=0, urx=800, ury =800)
        print(response)
        
        # چاپ پیام در کنسول (اختیاری)
        print('Text Extracted successfully from PDF !')    
    except ApiException as e:
        print("Exception while calling PdfApi: {0}".format(e))
        print("Code:" + str(e.code))
        print("Message:" + e.message)

پیش نمایش تبدیل PDF به متن — تصویر 1: - پیش نمایش PDF به متن.

در صورت نیاز به استخراج متن از صفحه خاصی از سند، لطفاً از API GetPageText استفاده کنید که pageNumber را به عنوان آرگومان می‌گیرد.

تبدیل PDF به متن با استفاده از دستور cURL

با استفاده از ترکیب قدرتمند Aspose.PDF Cloud و دستورات cURL، تبدیل یکپارچه محتوای PDF به متن ساده را تجربه کنید. این ادغام پویا نه تنها تبدیل PDF به متن را ساده می کند، بلکه چندین مزیت را نیز ارائه می دهد که مدیریت سند و تجربه استخراج متن شما را افزایش می دهد.

لطفاً توجه داشته باشید که یک پیش نیاز تحت این رویکرد، ایجاد یک رمز وب JSON (JWT) بر اساس اعتبار مشتری شما است. این مرحله اجباری است زیرا API های ما فقط برای کاربران ثبت نام شده قابل دسترسی است. لطفا دستور زیر را برای تولید توکن JWT اجرا کنید.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bbf94a2c-6d7e-4020-b4d2-b9809741374e&client_secret=1c9379bb7d701c26cc87e741a29987bb" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

هنگامی که توکن JWT را داریم، می‌توانیم از دستور زیر برای تبدیل PDF به متن با استخراج تمام محتوای متنی استفاده کنیم. خروجی به عنوان یک فایل متنی ساده در درایو محلی ذخیره می شود.

curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/awesomeTable.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>" \
-o Extracted.txt

نمونه استفاده شده در مثال بالا را می توان از awesomeTable.pdf دانلود کرد.

نتیجه گیری

استخراج متن از اسناد PDF یک نیاز حیاتی در دنیایی مملو از اطلاعات دیجیتال است. در کاوش خود در این فرآیند، دو مسیر پویا را بررسی کرده ایم: یکی از طریق Aspose.PDF Cloud SDK همه کاره برای پایتون، و دیگری از طریق ترکیب قدرتمند Aspose.PDF Cloud و دستورات cURL.

هر دو رویکرد، شکاف بین محتوای PDF ثابت و متن پویا را پر می‌کنند و نحوه مدیریت، تجزیه و تحلیل و استفاده از اطلاعات دیجیتال را بهبود می‌بخشند. چه پیچیدگی SDK یا سادگی دستورات cURL را انتخاب کنید، هر دو مسیر به تبدیل PDF به متن کارآمد منجر می‌شوند و به شما این امکان را می‌دهند که انبوهی از داده‌های متنی پنهان در اسناد PDF را باز کنید.

مقالات مرتبط

همچنین توصیه می کنیم برای کسب اطلاعات بیشتر به لینک های زیر مراجعه کنید:

تبدیل PDF به متن REST API#

متن را از PDF در پایتون استخراج کنید#

تبدیل PDF به متن با استفاده از دستور cURL#

نتیجه گیری#

مقالات مرتبط#

تبدیل PDF به متن REST API

متن را از PDF در پایتون استخراج کنید

تبدیل PDF به متن با استفاده از دستور cURL

نتیجه گیری

مقالات مرتبط