عادةً ما يتكون ملف PDF من نص وصورة وعنوان وتعليقات توضيحية وعناصر أخرى. ونظرًا لأن هذا التنسيق يحافظ على تخطيط المستند عبر الأنظمة الأساسية (سطح المكتب / الهاتف المحمول وما إلى ذلك) ، فإنه يستخدم على نطاق واسع لمشاركة المعلومات عبر الإنترنت. ومع ذلك ، قد يكون لدينا مطلب لاستخراج المحتوى النصي لوثيقة PDF لمزيد من المعالجة. لذلك في هذه المقالة ، سنناقش التفاصيل حول كيفية استخراج النص من PDF باستخدام Java Cloud SDK. بمجرد اكتمال العملية ، يتم حفظ الإخراج بتنسيق TXT.
PDF to TXT تحويل API
Aspose.PDF Cloud SDK for Java هو حل REST API الحائز على جوائز والذي يقدم القدرات لإنشاء وتحرير وتحويل PDF إلى JPG و XPS و HTML و DOCX ومجموعة متنوعة من التنسيقات المدعومة. الآن من أجل تنفيذ قدرات التعرف على نص pdf في تطبيق Java ، يرجى إضافة التفاصيل التالية في ملف pom.xml لمشروع نوع بناء maven.
<repositories>
<repository>
<id>aspose-cloud</id>
<name>artifact.aspose-cloud-releases</name>
<url>https://artifact.aspose.cloud/repo</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf-cloud</artifactId>
<version>21.11.0</version>
</dependency>
</dependencies>
بعد تثبيت SDK ، فإن الخطوة المهمة التالية هي إنشاء حساب مجاني عبر Aspose Cloud. لذا يرجى تسجيل الدخول باستخدام حساب تم إنشاؤه حديثًا والبحث / إنشاء معرّف العميل وسر العميل في Cloud Dashboard. هذه التفاصيل مطلوبة في الأقسام اللاحقة.
تحويل PDF إلى نص بجافا
يرجى اتباع الخطوات الواردة أدناه لإجراء تحويل PDF إلى نص باستخدام Java Cloud SDK. لذلك بعد التحويل الناجح ، يتم حفظ ملف TXT الناتج في التخزين السحابي.
- نحتاج أولاً إلى إنشاء كائن PdfApi مع توفير ClientID وسر العميل كوسائط
- ثانيًا ، قم بتحميل ملف PDF المدخل باستخدام مثيل الملف
- قم بتحميل ملف PDF المدخل إلى التخزين السحابي باستخدام طريقة uploadFile (…)
- إنشاء متغير عدد صحيح يحدد رقم صفحة PDF لاستخراج النص والمثيلات المزدوجة التي تشير إلى المنطقة المستطيلة من الصفحة التي نحتاج منها لاستخراج المحتوى النصي
- أخيرًا ، قم باستدعاء طريقة getPageText (…) لجلب المحتوى النصي من ملف PDF للإدخال
try
{
// احصل على ClientID و ClientSecret من https://dashboard.aspose.cloud/
String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
// إنشاء مثيل لـ PdfApi
PdfApi pdfApi = new PdfApi(clientSecret,clientId);
// اسم مستند إدخال PDF
String inputFile = "marketing.pdf";
// قراءة محتوى ملف إدخال PDF
File file = new File("//Users//"+inputFile);
// تحميل PDF إلى التخزين السحابي
pdfApi.uploadFile("input.pdf", file, null);
// صفحة محددة من PDF للتحويل
int pageNumber =1;
// تنسيق X للزاوية اليسرى السفلية
Double LLX = 0.0;
// ص - تنسيق الزاوية اليسرى السفلية.
Double LLY = 0.0;
// X - تنسيق الزاوية اليمنى العلوية.
Double URX = 800.0;
// ص - تنسيق الزاوية اليمنى العلوية.
Double URY = 800.0;
// استدعاء API لتحويل PDF إلى نص
TextRectsResponse response = pdfApi.getPageText(inputFile, pageNumber, LLX, LLY, URX, URY, null, null, true, null, "default");
// مثيل ملف TXT الناتج
FileWriter myWriter = new FileWriter("filename.txt");
// انتقل الآن عبر ميزة Text Occurance الفردية للحصول على نتيجة طباعة في وحدة التحكم
for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
{
// كتابة محتوى نصي إلى ملف TXT
myWriter.write(response.getTextOccurrences().getList().get(counter).getText());
}
// أغلق معالج TXT
myWriter.close();
System.out.println("Text successfully extracted from PDF !");
}catch(Exception ex)
{
System.out.println(ex);
}
يمكن تنزيل نموذج ملف PDF المستخدم في المثال أعلاه من marketing.pdf و extracted.txt
استخراج نص من ملف PDF باستخدام أوامر cURL
يمكن الوصول بسهولة إلى واجهات برمجة تطبيقات REST عبر أوامر cURL ، لذلك في هذا القسم ، سنستكشف خيار كيفية استخراج المحتوى النصي من PDF باستخدام أوامر cURL. لذلك كشرط مسبق ، نحتاج أولاً إلى إنشاء رمز وصول JWT (بناءً على بيانات اعتماد العميل) أثناء تنفيذ الأمر التالي.
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
بمجرد حصولنا على رمز JWT ، نحتاج إلى تنفيذ الأمر التالي لاستخراج جميع حالات حدوث النص داخل مستند PDF.
curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H "accept: application/json" \
-H "authorization: Bearer <JWT Token>"
خاتمة
توضح هذه المقالة التفاصيل حول كيفية تحويل PDF إلى TXT باستخدام Java Cloud SDK. في الوقت نفسه ، اكتشفنا أيضًا خيارات استخراج النص من PDF باستخدام أوامر cURL. لذلك مع مرونة التنقل بين صفحات PDF المتعددة ، نحصل على التحكم في مكان استخراج المحتوى. نوصي بشدة باستكشاف المنتج الوثائق لمعرفة المزيد حول الميزات المثيرة الأخرى التي تقدمها Java Cloud API. أيضًا ، نظرًا لأن جميع حزم SDK السحابية الخاصة بنا منشورة بموجب ترخيص MIT ، يمكنك التفكير في تنزيل كود المصدر الكامل من GitHub وتعديله وفقًا لمتطلباتك. في حالة وجود أي مشكلات ، يمكنك الاتصال بنا للحصول على حل سريع عبر منتدى دعم المنتج مجانًا.
مقالات ذات صلة
يرجى زيارة الروابط التالية لمعرفة المزيد حول: