في عالم اليوم المعتمد على البيانات ، أصبحت ملفات PDF تنسيقًا لا غنى عنه لتخزين المستندات ومشاركتها. ومع ذلك ، ليست كل ملفات PDF قابلة للبحث أو التحرير بسهولة ، خاصة تلك التي تعتمد على الصور. عند التعامل مع المستندات ، من الصعب حقًا نسخ / استخراج أي معلومات نصية لمزيد من المعالجة. لحسن الحظ ، مع قوة تقنية التعرف الضوئي على الأحرف (OCR) ، يمكنك تحويل ملفات PDF للصور إلى ملفات PDF قابلة للبحث بسهولة. في هذه المدونة التقنية ، سوف نستكشف كيفية تحويل OCR PDF إلى PDF قابل للبحث باستخدام تقنيات مختلفة ، مع التركيز بشكل خاص على REST API. سنناقش أيضًا كيفية استخراج النص من ملفات PDF الخاصة بـ OCR ، مما يمنحك فهمًا شاملاً لكيفية الاستفادة من تقنية OCR لإطلاق الإمكانات الكاملة لمستندات PDF الخاصة بك.
- OCR PDF باستخدام Java SDK
- PDF الممسوحة ضوئيًا إلى ملف PDF قابل للبحث باستخدام Java
- التعرف الضوئي على الحروف عبر الإنترنت باستخدام أوامر cURL
OCR PDF باستخدام Java SDK
Aspose.PDF Cloud SDK لجافا هي واجهة برمجة تطبيقات سحابية قوية تقدم مجموعة واسعة من الميزات والإمكانيات للعمل مع مستندات PDF. تتمثل إحدى وظائفه الرئيسية في القدرة على إجراء التعرف الضوئي على الحروف على ملفات PDF ، والتي يمكن أن تبسط إلى حد كبير عملية استخراج النص من ملفات PDF القائمة على الصور وإنشاء ملفات PDF قابلة للبحث. بفضل واجهته سهلة الاستخدام ووثائقه الشاملة ، تسهل SDK هذه أتمتة عملية إجراء التعرف الضوئي على الحروف على ملفات PDF ، مما يوفر الوقت ويزيد من الإنتاجية.
علاوة على ذلك ، تم تصميم واجهة برمجة التطبيقات السحابية هذه للتعامل مع مجموعة متنوعة من تنسيقات الإدخال ويمكنها حتى التعرف على النص المكتوب بخط اليد ، مما يجعلها خيارًا ممتازًا للشركات والمطورين الذين يتطلعون إلى تبسيط سير عمل المستندات الخاص بهم. الآن الخطوة الأولى هي إضافة مرجعها في مشروع Java عن طريق إضافة التفاصيل التالية في pom.xml من مشروع بناء maven.
<repositories>
<repository>
<id>aspose-cloud</id>
<name>artifact.aspose-cloud-releases</name>
<url>http://artifact.aspose.cloud/repo</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf-cloud</artifactId>
<version>21.11.0</version>
</dependency>
</dependencies>
إذا لم يكن لديك حساب حالي ، فأنت بحاجة إلى إنشاء حساب مجاني عبر Aspose Cloud. تسجيل الدخول باستخدام حساب تم إنشاؤه حديثًا والبحث / إنشاء معرّف العميل وسر العميل في Cloud Dashboard. هذه التفاصيل مطلوبة في الأقسام اللاحقة.
PDF الممسوحة ضوئيًا إلى ملف PDF قابل للبحث باستخدام Java
يشرح هذا القسم التفاصيل حول كيفية تحويل ملف PDF الممسوح ضوئيًا إلى ملف PDF قابل للبحث باستخدام مقتطف كود Java. يرجى ملاحظة أن Java Cloud SDK تدعم التعرف على اللغات التالية: eng، ara، bel، ben، bul، ces، dan، deu، ell، fin، fra، heb، hin، ind، isl، ita، jpn، kor، nld ، ولا ، بول ، بور ، رون ، روس ، سبا ، سوي ، ثا ، تور ، أوكر ، في ، تشيزيم ، شيترا أو مزيجهم على سبيل المثال eng ، rus.
- نحتاج أولاً إلى إنشاء كائن من PdfApi ، حيث نقوم بتمرير تفاصيل ClientID وسر العميل كوسائط
- ثانيًا ، قم بإنشاء مثيل لفئة File لتحميل ملف PDF للصور
- ثالثًا ، قم باستدعاء الأسلوب uploadFile (…) لتحميل ملف PDF المدخل إلى التخزين السحابي
- نظرًا لأن ملف PDF الخاص بالصورة يحتوي على نص باللغة الإنجليزية ، فنحن بحاجة إلى إنشاء كائن سلسلة يحمل القيمة “eng”
- أخيرًا ، قم باستدعاء الطريقة putSearchableDocument (…) ، والتي تتطلب إدخال PDF ورمز اللغة كوسائط.
بمجرد تنفيذ الكود بنجاح ، يتم تخزين ملف PDF القابل للبحث في التخزين السحابي
try
{
// احصل على ClientID و ClientSecret من https://dashboard.aspose.cloud/
String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
// مثيل createPdfApi
PdfApi pdfApi = new PdfApi(clientSecret,clientId);
// إدخال صورة وثيقة PDF
String name = "ScannedPDF.pdf";
// قم بتحميل الملف من النظام المحلي
File file = new File(name);
// قم بتحميل الملف إلى التخزين السحابي
FilesUploadResult uploadResponse = pdfApi.uploadFile(name, file, null);
// اللغات المستخدمة في صورة PDF
String lang = "eng";
// إجراء التعرف الضوئي على الحروف على مستند PDF للصور
AsposeResponse response = pdfApi.putSearchableDocument(name, null, null, lang);
// اطبع رسالة النجاح
System.out.println("OCR PDF successfull !");
}catch(Exception ex)
{
System.out.println(ex.getMessage());
}
يمكن تنزيل ملف PDF الممسوح ضوئيًا المستخدم في المثال أعلاه من BusinessReport.pdf وملف PDF الناتج القابل للبحث من Converted.pdf
التعرف الضوئي على الحروف عبر الإنترنت باستخدام أوامر cURL
أوامر cURL هي إحدى الطرق الملائمة لاستدعاء REST APIs. لذلك في هذا القسم ، سنستخدم أوامر cURL لـ OCR عبر الإنترنت. الآن ، كشرط أساسي ، نحتاج أولاً إلى إنشاء رمز وصول JWT (بناءً على بيانات اعتماد العميل) أثناء تنفيذ الأمر التالي.
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
بمجرد أن يكون لدينا رمز JWT ، يرجى الأمر التالي لإجراء OCR عبر الإنترنت وتحويل Image PDF إلى مستند PDF قابل للبحث. ثم يتم تخزين الملف الناتج في التخزين السحابي.
curl -v -X GET "https://api.aspose.cloud/v4.0/words/Resultant.docx?format=TIFF&outPath=converted.tiff" \
-H "accept: application/octet-stream" \
-H "Authorization: Bearer <JWT Token>"
خاتمة
يعد إجراء التعرف الضوئي على الحروف على ملفات PDF عملية حاسمة لإطلاق العنان للإمكانات الكاملة لهذه المستندات. بمساعدة أدوات التعرف الضوئي على الحروف المستندة إلى مجموعة النظراء مثل Aspose.PDF Cloud SDK لـ Java ، يمكن تبسيط هذه العملية وأتمتتها ، مما يوفر الوقت ويزيد من الإنتاجية. من خلال الاستفادة من قوة OCR ، يمكن للشركات والمطورين تحويل ملفات PDF القائمة على الصور إلى ملفات PDF قابلة للبحث ، مما يسهل البحث والتحرير والمشاركة. من الواضح أن واجهة برمجة التطبيقات هذه تقدم مجموعة من الميزات والإمكانيات القوية للعمل مع ملفات PDF. باتباع الإرشادات خطوة بخطوة المتوفرة في هذه المدونة الفنية ، يمكنك البدء في التعرف الضوئي على الحروف على ملفات PDF والانتقال بسير عمل المستند إلى المستوى التالي.
يمكنك التفكير في الوصول إلى API من خلال متصفح الويب باستخدام واجهة swagger. علاوة على ذلك ، نظرًا لأن أدوات تطوير البرامج (SDK) الخاصة بنا مبنية بموجب ترخيص معهد ماساتشوستس للتكنولوجيا (MIT) ، فيمكن تنزيل كود المصدر الكامل من GitHub. في حال واجهتك أية مشكلات أثناء استخدام واجهة برمجة التطبيقات ، فلا تتردد في الاتصال بنا عبر منتدى دعم المنتج المجاني.
مقالات ذات صلة
نوصي بشدة بزيارة الروابط التالية لمعرفة المزيد حول: