برنامج OCR لملفات PDF عبر الإنترنت | تحويل ملف PDF الممسوح ضوئيًا إلى ملف PDF قابل للبحث

الصور هي أحد المكونات الأساسية لمشاركة البيانات، وتقوم بعض التطبيقات بعرض المحتوى المصدر مباشرة بتنسيق PDF. ولكن هذه الراحة تزيد من التكلفة عندما يتعين علينا البحث عن محتوى معين داخل المستند. في هذا السيناريو، يتعين على المرء مراجعة المستند بالكامل يدويًا للعثور على المعلومات ذات الصلة. لذا فإن النهج الموصى به هو دائمًا إنشاء ملفات يمكن البحث فيها ويسهل إدارتها. ومع ذلك، إذا تلقيت ملفات PDF حيث لا يمكنك التحكم في تنسيق المستندات في المصدر، لذلك من أجل أرشفة البيانات وفهرستها، نحتاج إلى تحويل هذه المستندات إلى تنسيق قابل للبحث. في هذه المقالة، سنناقش التفاصيل حول كيفية إجراء التعرف الضوئي على الحروف على ملفات PDF عبر الإنترنت وتحويل ملفات PDF الممسوحة ضوئيًا / الصور إلى مستندات PDF قابلة للبحث / نصية.

واجهة برمجة تطبيقات معالجة PDF
التعرف الضوئي على الحروف في PDF باستخدام الأمر cURL
تحويل ملف PDF الممسوح ضوئيًا إلى ملف قابل للبحث في Java

واجهة برمجة تطبيقات معالجة PDF

Aspose.PDF Cloud هي واجهة برمجة التطبيقات الخاصة بنا الحائزة على جوائز لإنشاء ومعالجة ملفات PDF استنادًا إلى بنية REST. باستخدام نفس واجهة برمجة التطبيقات، يمكنك إجراء مجموعة متنوعة من العمليات مثل تحويل EPUB إلى PDF، تحويل HTML إلى PDF، تحويل XPS إلى PDF، تحويل DOC وDoc X إلى PDF، تحويل XPS إلى PDF، إدراج الصور في ملفات PDF جديدة أو موجودة، إلخ. يتم تنفيذ كل هذه العمليات في السحابة، وبالتالي، يمكن الوصول إلى واجهة برمجة التطبيقات من أي منصة.

التعرف الضوئي على الحروف في PDF باستخدام الأمر cURL

أوامر cURL هي طريقة سهلة للوصول إلى Aspose.PDF Cloud عبر محطة سطر الأوامر. ولكن قبل الوصول إلى واجهات برمجة التطبيقات، تحتاج أولاً إلى زيارة لوحة تحكم Aspose.Cloud وإذا كان لديك حساب GitHub أو Google، فما عليك سوى التسجيل. بخلاف ذلك، انقر فوق الزر إنشاء حساب جديد وقم بتوفير المعلومات المطلوبة. الآن قم بتسجيل الدخول إلى لوحة التحكم باستخدام بيانات الاعتماد وقم بتوسيع قسم التطبيقات من لوحة التحكم وانتقل لأسفل نحو قسم بيانات اعتماد العميل لرؤية تفاصيل معرف العميل والسر الخاص بالعميل.

الآن الخطوة التالية هي إنشاء JSON Web Token (JWT) حتى يمكن الوصول إلى واجهات برمجة التطبيقات من خلال موجه الأوامر.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=a41d01ef-dfd5-4e02-ad29-bd85fe41e3e4&client_secret=d87269aade6a46cdc295b711e26809af" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

بمجرد حصولنا على رمز JWT، قم بتنفيذ أمر cURL التالي في محطة سطر الأوامر.

curl -X PUT "https://api.aspose.cloud/v3.0/pdf/ocrscan.pdf/ocr?lang=eng" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>"

تحويل ملف PDF الممسوح ضوئيًا إلى ملف قابل للبحث في Java

لتسهيل الأمر على مبرمجي Java، تم إنشاء غلاف حول Aspose.PDF Cloud بحيث يمكن الوصول بسهولة إلى جميع ميزات Cloud API في كود Java. وبالمثل، لإجراء عملية التعرف الضوئي على الحروف على ملف PDF الممسوح ضوئيًا، نحتاج إلى استخدام Aspose.PDF Cloud SDK for Java.

لذا فإن الخطوة الأولى هي تثبيت SKD على النظام. تتوفر Cloud SDK للتنزيل عبر Maven وGitHub. الآن أضف التفاصيل التالية في ملف pom.xml الخاص بك لتنزيل Aspose.Pdf.jar واستخدامه في مشروع بناء Maven الخاص بك.

<repositories>
 <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>https://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>
<dependencies>
 <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-pdf-cloud</artifactId>
        <version>21.1.0</version>
        <scope>compile</scope>
    </dependency>
 </dependencies>

لمزيد من المعلومات، يرجى زيارة كيفية تثبيت Aspose.Cloud SDKs.

توضح الخطوات أدناه عملية تشغيل COR على ملف PDF للصورة.

الخطوة الأولى هي إنشاء كائن PdfApi أثناء تمرير تفاصيل ClientID والسر السري للعميل (متوفرة في لوحة معلومات Aspose.Cloud).
قم بإنشاء مثيل ملف ومرر موقع ملف الصورة كحجة.
اتصل بطريقة uploadFile(…) ومرر مستند PDF ونسخة الملف كوسائط.
الخطوة التالية هي إنشاء مثيل سلسلة وتعيين قيمته إلى رمز اللغة الذي يحتوي عليه ملف المصدر أي “rus,eng”.
أخيرًا، قم باستدعاء طريقة putSearchableDocument(…) الخاصة بـ PdfApi ومرر اسم ملف PDF المدخل وكود اللغة كوسائط.

اللغات لمحرك التعرف الضوئي على الحروف. القيم المدعومة: eng، ara، bel، ben، bul، ces، dan، deu، ell، fin، fra، heb، hin، ind، isl، ita، jpn، kor، nld، nor، pol، por، ron، rus، spa، swe، tha، tur، ukr، vie، chisim، chitra أو مزيج منهما على سبيل المثال eng،rus.

// احصل على ClientID وClientSecret من https://dashboard.aspose.cloud/
String clientId = "a41d01ef-dfd5-4e02-ad29-bd85fe41e3e4";
String clientSecret = "d87269aade6a46cdc295b711e26809af";
				
// إنشاء مثيل لـPdfApi
PdfApi pdfApi = new PdfApi(clientSecret,clientId);
				
// إدخال مستند PDF
String name = "ocrscan.pdf";	        
			    
// تحميل الملف من النظام المحلي
File file = new File("/Users/nayyershahbaz/Downloads/" + name);
// رفع الملف إلى التخزين السحابي
FilesUploadResult uploadResponse = pdfApi.uploadFile(name, file, null);
				
// اللغات المستخدمة في ملف الصورة
String lang = "rus,eng";
				
//  إجراء التعرف الضوئي على الحروف على مستند PDF للصورة
AsposeResponse response = pdfApi.putSearchableDocument(name, null, null, lang);
assertEquals(200, (int)response.getCode());

معاينة نتيجة التعرف الضوئي على الحروف — الصورة 1:- معاينة إخراج OCR.

يمكن تنزيل ملفات PDF النموذجية المستخدمة في المثال أعلاه من الروابط التالية:

خاتمة

في هذه المقالة، تعلمنا بعض الخطوات البسيطة حول كيفية إجراء عملية التعرف الضوئي على الحروف في ملفات PDF عبر الإنترنت وتحويل مستند PDF الممسوح ضوئيًا إلى مستند PDF قابل للبحث. وبصرف النظر عن عمليات التعرف الضوئي على الحروف، فإن مجموعة أدوات تطوير البرامج قوية للغاية ويمكنها إجراء مجموعة متنوعة من العمليات الأخرى. لمزيد من التفاصيل، يرجى زيارة ميزات Aspose.PDF Cloud.

واجهة برمجة تطبيقات معالجة PDF#

التعرف الضوئي على الحروف في PDF باستخدام الأمر cURL#

تحويل ملف PDF الممسوح ضوئيًا إلى ملف قابل للبحث في Java#

خاتمة#

واجهة برمجة تطبيقات معالجة PDF

التعرف الضوئي على الحروف في PDF باستخدام الأمر cURL

تحويل ملف PDF الممسوح ضوئيًا إلى ملف قابل للبحث في Java

خاتمة