PDF لتحويل TXT

كيفية تحويل ملفات PDF إلى TXT باستخدام Java

عادةً ما يتكون ملف PDF من نص وصورة وعنوان وتعليقات توضيحية وعناصر أخرى. ونظرًا لأن هذا التنسيق يحافظ على تخطيط المستند عبر الأنظمة الأساسية (سطح المكتب / الهاتف المحمول وما إلى ذلك) ، فإنه يستخدم على نطاق واسع لمشاركة المعلومات عبر الإنترنت. ومع ذلك ، قد يكون لدينا مطلب لاستخراج المحتوى النصي لوثيقة PDF لمزيد من المعالجة. لذلك في هذه المقالة ، سنناقش التفاصيل حول كيفية استخراج النص من PDF باستخدام Java Cloud SDK. بمجرد اكتمال العملية ، يتم حفظ الإخراج بتنسيق TXT.

PDF to TXT تحويل API

Aspose.PDF Cloud SDK for Java هو حل REST API الحائز على جوائز والذي يقدم القدرات لإنشاء وتحرير وتحويل PDF إلى JPG و XPS و HTML و DOCX ومجموعة متنوعة من التنسيقات المدعومة. الآن من أجل تنفيذ قدرات التعرف على نص pdf في تطبيق Java ، يرجى إضافة التفاصيل التالية في ملف pom.xml لمشروع نوع بناء maven.

<repositories> 
    <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>https://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-pdf-cloud</artifactId>
        <version>21.11.0</version>
    </dependency>
</dependencies>

بعد تثبيت SDK ، فإن الخطوة المهمة التالية هي إنشاء حساب مجاني عبر Aspose Cloud. لذا يرجى تسجيل الدخول باستخدام حساب تم إنشاؤه حديثًا والبحث / إنشاء معرّف العميل وسر العميل في Cloud Dashboard. هذه التفاصيل مطلوبة في الأقسام اللاحقة.

تحويل PDF إلى نص بجافا

يرجى اتباع الخطوات الواردة أدناه لإجراء تحويل PDF إلى نص باستخدام Java Cloud SDK. لذلك بعد التحويل الناجح ، يتم حفظ ملف TXT الناتج في التخزين السحابي.

  • نحتاج أولاً إلى إنشاء كائن PdfApi مع توفير ClientID وسر العميل كوسائط
  • ثانيًا ، قم بتحميل ملف PDF المدخل باستخدام مثيل الملف
  • قم بتحميل ملف PDF المدخل إلى التخزين السحابي باستخدام طريقة uploadFile (…)
  • إنشاء متغير عدد صحيح يحدد رقم صفحة PDF لاستخراج النص والمثيلات المزدوجة التي تشير إلى المنطقة المستطيلة من الصفحة التي نحتاج منها لاستخراج المحتوى النصي
  • أخيرًا ، قم باستدعاء طريقة getPageText (…) لجلب المحتوى النصي من ملف PDF للإدخال
try
    {
    // احصل على ClientID و ClientSecret من https://dashboard.aspose.cloud/
    String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
    String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
	  
    // إنشاء مثيل لـ PdfApi
    PdfApi pdfApi = new PdfApi(clientSecret,clientId);

    // اسم مستند إدخال PDF
    String inputFile = "marketing.pdf";

    // قراءة محتوى ملف إدخال PDF
    File file = new File("//Users//"+inputFile);
	    
    // تحميل PDF إلى التخزين السحابي
    pdfApi.uploadFile("input.pdf", file, null);

    // صفحة محددة من PDF للتحويل
    int pageNumber =1;

    // تنسيق X للزاوية اليسرى السفلية
    Double LLX = 0.0;
    // ص - تنسيق الزاوية اليسرى السفلية.
    Double LLY = 0.0;
    // X - تنسيق الزاوية اليمنى العلوية.
    Double URX = 800.0;
    // ص - تنسيق الزاوية اليمنى العلوية.
    Double URY = 800.0;
	       
    // استدعاء API لتحويل PDF إلى نص
    TextRectsResponse response = pdfApi.getPageText(inputFile, pageNumber, LLX, LLY, URX, URY, null, null, true, null, "default");	    
    
    // مثيل ملف TXT الناتج
    FileWriter myWriter = new FileWriter("filename.txt");
  
    // انتقل الآن عبر ميزة Text Occurance الفردية للحصول على نتيجة طباعة في وحدة التحكم
    for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
    {
        // كتابة محتوى نصي إلى ملف TXT
	myWriter.write(response.getTextOccurrences().getList().get(counter).getText());
    }
  
    // أغلق معالج TXT
    myWriter.close();
    
    System.out.println("Text successfully extracted from PDF !");
    }catch(Exception ex)
    {
	      System.out.println(ex);
    }
تحويل PDF إلى TXT

صورة 1: - معاينة تحويل PDF إلى TXT

يمكن تنزيل نموذج ملف PDF المستخدم في المثال أعلاه من marketing.pdf و extracted.txt

استخراج نص من ملف PDF باستخدام أوامر cURL

يمكن الوصول بسهولة إلى واجهات برمجة تطبيقات REST عبر أوامر cURL ، لذلك في هذا القسم ، سنستكشف خيار كيفية استخراج المحتوى النصي من PDF باستخدام أوامر cURL. لذلك كشرط مسبق ، نحتاج أولاً إلى إنشاء رمز وصول JWT (بناءً على بيانات اعتماد العميل) أثناء تنفيذ الأمر التالي.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

بمجرد حصولنا على رمز JWT ، نحتاج إلى تنفيذ الأمر التالي لاستخراج جميع حالات حدوث النص داخل مستند PDF.

curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>"

خاتمة

توضح هذه المقالة التفاصيل حول كيفية تحويل PDF إلى TXT باستخدام Java Cloud SDK. في الوقت نفسه ، اكتشفنا أيضًا خيارات استخراج النص من PDF باستخدام أوامر cURL. لذلك مع مرونة التنقل بين صفحات PDF المتعددة ، نحصل على التحكم في مكان استخراج المحتوى. نوصي بشدة باستكشاف المنتج الوثائق لمعرفة المزيد حول الميزات المثيرة الأخرى التي تقدمها Java Cloud API. أيضًا ، نظرًا لأن جميع حزم SDK السحابية الخاصة بنا منشورة بموجب ترخيص MIT ، يمكنك التفكير في تنزيل كود المصدر الكامل من GitHub وتعديله وفقًا لمتطلباتك. في حالة وجود أي مشكلات ، يمكنك الاتصال بنا للحصول على حل سريع عبر منتدى دعم المنتج مجانًا.

مقالات ذات صلة

يرجى زيارة الروابط التالية لمعرفة المزيد حول: