تحويل pdf إلى نص

كيفية تحويل PDF إلى نص في بايثون

إن عالمنا الرقمي اليوم مليء بالمعلومات، وأصبحت القدرة على استخراج النص من مستندات PDF ليست مجرد راحة، بل ضرورة. تخيل أنك تقوم بفحص ملف PDF طويل، بحثًا عن تلك القطعة المهمة من المعلومات للاستشهاد بها في بحثك، أو ربما تدير مستودعًا للمستندات، وتسعى إلى استخراج البيانات للتحليل. في هذه السيناريوهات وغيرها الكثير، تظهر القدرة على تحويل محتوى PDF إلى نص عادي دون عناء كعامل تغيير. تستكشف هذه المقالة الغرض العميق والفوائد التي لا يمكن إنكارها لاستخراج النص من ملفات PDF باستخدام Python Cloud SDK. يعمل هذا التحول على تمكين الأفراد والمؤسسات من إدارة المحتوى الرقمي وتحليله واستخدامه بكفاءة في عالم حيث تكون المعلومات ذات أهمية عميقة.

تحويل PDF إلى نص باستخدام REST API

أصبح استخراج النصوص من مستندات PDF أمرًا سهلاً وفعالًا باستخدام Aspose.PDF Cloud SDK for Python. تتيح لك مجموعة SDK متعددة الاستخدامات هذه تحويل محتوى PDF إلى نص عادي دون عناء، مما يتيح لك فتح المعلومات المخزنة داخل هذه المستندات الرقمية.

تتوفر مجموعة SDK السحابية للتنزيل مجانًا عبر مستودع PIP وGitHub. الآن قم بتنفيذ الأمر التالي على المحطة الطرفية/موجه الأوامر لتثبيت أحدث إصدار من مجموعة SDK:

 pip install asposepdfcloud

إذا كنت تستخدم PyCharm IDE، فيمكنك إضافة SDK مباشرة كاعتمادية في مشروعك.

ملف ->الإعدادات ->المشروع ->مُفسِّر بايثون ->asposepdfcloud

بعد التثبيت، فإن الخطوة الرئيسية التالية هي الاشتراك المجاني في خدماتنا السحابية عبر لوحة تحكم Aspose.Cloud. إذا كان لديك حساب GitHub أو Google، فما عليك سوى التسجيل أو النقر فوق الزر إنشاء حساب جديد. الآن قم بتسجيل الدخول إلى لوحة التحكم واحصل على تفاصيل معرف العميل وسر العميل المخصصة لك.

استخراج النص من PDF في بايثون

يرجى اتباع التعليمات الواردة أدناه لاستخراج النص من مستندات PDF باستخدام Python SDK.

  • أولاً، قم بإنشاء مثيل لفئة ApiClient مع توفير معرف العميل وسر العميل كوسائط.
  • ثانيًا، قم بإنشاء مثيل لفئة PdfApi والتي تأخذ كائن ApiClient كحجة إدخال.
  • الآن قم باستدعاء الطريقة gettext(…) مع توفير إحداثيات LLX، وLLY، وURX، وURY.
def extractText():
    try:
        #Client credentials
        client_secret = "1c9379bb7d701c26cc87e741a29987bb"
        client_id = "bbf94a2c-6d7e-4020-b4d2-b9809741374e"

        #initialize PdfApi client instance using client credetials
        pdf_api_client = asposepdfcloud.api_client.ApiClient(client_secret, client_id)

        # إنشاء مثيل PdfApi أثناء تمرير PdfApiClient كحجة
        pdf_api = PdfApi(pdf_api_client)

        #source image file
        input_file = 'awesomeTable.pdf'
        
        # استدعاء الطريقة لاستخراج النص
        response = pdf_api.get_text(name = input_file, llx=0,lly=0, urx=800, ury =800)
        print(response)
        
        # طباعة الرسالة في وحدة التحكم (اختياري)
        print('Text Extracted successfully from PDF !')    
    except ApiException as e:
        print("Exception while calling PdfApi: {0}".format(e))
        print("Code:" + str(e.code))
        print("Message:" + e.message)
معاينة تحويل PDF إلى نص

الصورة 1:- معاينة PDF إلى نص.

في حالة احتياجك إلى استخراج النص من صفحة معينة من المستند، يرجى محاولة استخدام واجهة برمجة التطبيقات GetPageText التي تأخذ pageNumber كحجة.

تحويل PDF إلى نص باستخدام الأمر cURL

استمتع بالتحويل السلس لمحتوى PDF إلى نص عادي باستخدام المزيج القوي من أوامر Aspose.PDF Cloud وcURL. لا يعمل هذا التكامل الديناميكي على تبسيط تحويل PDF إلى نص فحسب، بل يوفر أيضًا العديد من الفوائد التي تعزز تجربة إدارة المستندات واستخراج النص.

يرجى ملاحظة أن أحد المتطلبات الأساسية في هذا النهج هو إنشاء رمز ويب JSON (JWT) استنادًا إلى بيانات اعتماد العميل. هذه الخطوة إلزامية لأن واجهات برمجة التطبيقات الخاصة بنا متاحة فقط للمستخدمين المسجلين. يرجى تنفيذ الأمر التالي لإنشاء رمز JWT.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bbf94a2c-6d7e-4020-b4d2-b9809741374e&client_secret=1c9379bb7d701c26cc87e741a29987bb" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

بمجرد حصولنا على رمز JWT، يمكننا استخدام الأمر التالي لتحويل ملف PDF إلى نص عن طريق استخراج كل المحتوى النصي. يتم حفظ الناتج كملف نص عادي على محرك الأقراص المحلي.

curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/awesomeTable.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>" \
-o Extracted.txt

يمكن تنزيل العينة المستخدمة في المثال أعلاه من awesomeTable.pdf.

خاتمة

يعد استخراج النص من مستندات PDF متطلبًا بالغ الأهمية في عالم مليء بالمعلومات الرقمية. في استكشافنا لهذه العملية، قمنا بفحص مسارين ديناميكيين: أحدهما من خلال مجموعة أدوات تطوير البرامج Aspose.PDF Cloud SDK متعددة الاستخدامات للغة Python، والآخر عبر المجموعة القوية من أوامر Aspose.PDF Cloud وcURL.

يعمل كلا النهجين على سد الفجوة بين محتوى PDF الثابت والنص الديناميكي، مما يعزز الطريقة التي ندير بها المعلومات الرقمية ونحللها ونستفيد منها. سواء اخترت تعقيد مجموعة أدوات تطوير البرامج أو بساطة أوامر cURL، فإن كلا المسارين يؤديان إلى تحويل PDF إلى نص بكفاءة، مما يمكّنك من فتح ثروة البيانات النصية المخفية داخل مستندات PDF.

مقالات ذات صلة

وننصحك أيضًا بزيارة الروابط التالية لمعرفة المزيد عن: