صورة من PDF إلى PDF قابل للبحث فيه

تحويل ملف PDF إلى ملف PDF قابل للبحث

بالنسبة لأرشفة الكتب / المستندات على المدى الطويل ، فإن أحد أسرع الأساليب هو مسحها ضوئيًا كصور. أيضًا ، في حالة احتياجك للاحتفاظ بها ككتيب ، يمكن دمج جميع الصور كمستند PDF موحد. ولكن ، إذا كان مستند PDF يتكون من صور ، فمن الصعب حقًا نسخ / استخراج أي معلومات نصية لمزيد من المعالجة. لذلك في هذه المقالة ، سنناقش التفاصيل حول كيفية ملفات OCR PDF وتحويل PDF غير القابل للبحث إلى PDF قابل للبحث باستخدام Java cloud SDK.

OCR PDF Java SDK

من أجل إنشاء ومعالجة وتحويل ملفات PDF إلى مجموعة متنوعة من التنسيقات المدعومة ، قمنا بتطوير Aspose.PDF Cloud. الآن من أجل تنفيذ OCR PDF Free في تطبيق Java ، نحتاج إلى تجربة استخدام Aspose.PDF Cloud SDK for Java وهو عبارة عن غلاف حول Java Cloud API. الآن الخطوة الأولى في استخدام SDK هي تثبيته. لذا يرجى إضافة التفاصيل التالية في ملف pom.xml الخاص بمشروع نوع بناء maven.

<repositories> 
    <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>http://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-pdf-cloud</artifactId>
        <version>21.11.0</version>
    </dependency>
</dependencies>

بمجرد إضافة مرجع JDK ، يرجى إنشاء حساب مجاني عبر Aspose Cloud. تسجيل الدخول باستخدام حساب تم إنشاؤه حديثًا والبحث / إنشاء معرّف العميل وسر العميل في Cloud Dashboard. هذه التفاصيل مطلوبة في الأقسام اللاحقة.

PDF الممسوحة ضوئيًا إلى ملف PDF قابل للبحث باستخدام Java

يشرح هذا القسم التفاصيل حول كيفية تحويل ملف PDF الممسوح ضوئيًا إلى ملف PDF قابل للبحث باستخدام مقتطف كود Java. يرجى ملاحظة أن Java Cloud SDK تدعم التعرف على اللغات التالية: eng، ara، bel، ben، bul، ces، dan، deu، ell، fin، fra، heb، hin، ind، isl، ita، jpn، kor، nld ، ولا ، بول ، بور ، رون ، روس ، سبا ، سوي ، ثا ، تور ، أوكر ، في ، تشيزيم ، شيترا أو مزيجهم على سبيل المثال eng ، rus.

  • تتمثل الخطوة الأولى في إنشاء كائن PdfApi يأخذ تفاصيل ClientID وسر العميل كوسائط
  • ثانيًا ، قم بإنشاء مثيل ملف لتحميل OCR PDF
  • ثالثًا ، قم باستدعاء طريقة uploadFile (…) لتحميل ملف PDF إلى التخزين السحابي
  • نظرًا لأن ملف PDF الخاص بالصورة يحتوي على نص باللغة الإنجليزية ، فنحن بحاجة إلى إنشاء كائن سلسلة يحمل القيمة “eng”
  • أخيرًا ، قم باستدعاء طريقة putSearchableDocument (…) التي تتطلب إدخال PDF ورمز اللغة كوسائط. يتم تخزين ملف PDF الناتج القابل للبحث في نفس التخزين السحابي
try
    {
    // احصل على ClientID و ClientSecret من https://dashboard.aspose.cloud/
    String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
    String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
	  
    // مثيل createPdfApi
    PdfApi pdfApi = new PdfApi(clientSecret,clientId);
	    				
    // إدخال صورة وثيقة PDF
    String name = "ScannedPDF.pdf";	        
	    			    
    // قم بتحميل الملف من النظام المحلي
    File file = new File(name);
    // قم بتحميل الملف إلى التخزين السحابي
    FilesUploadResult uploadResponse = pdfApi.uploadFile(name, file, null);
	    				
    // اللغات المستخدمة في صورة PDF
    String lang = "eng";
	    				
    //  إجراء التعرف الضوئي على الحروف على مستند PDF للصور
    AsposeResponse response = pdfApi.putSearchableDocument(name, null, null, lang);
	    
    // اطبع رسالة النجاح
    System.out.println("OCR PDF successfull !");
    }catch(Exception ex)
    {
        System.out.println(ex.getMessage());
    }
صورة من PDF إلى PDF قابل للبحث فيه

صورة 1: - معاينة PDF قابلة للبحث

يمكن تنزيل ملف PDF الممسوح ضوئيًا المستخدم في المثال أعلاه من BusinessReport.pdf وملف PDF الناتج القابل للبحث من Converted.pdf

التعرف الضوئي على الحروف عبر الإنترنت باستخدام أوامر cURL

أوامر cURL هي من بين الطرق الملائمة للوصول إلى واجهات برمجة تطبيقات REST من خلال محطة سطر الأوامر. لذلك في هذا القسم ، سنستخدم أوامر cURL لـ OCR عبر الإنترنت. الآن كشرط مسبق ، نحتاج أولاً إلى إنشاء رمز وصول JWT (بناءً على بيانات اعتماد العميل) أثناء تنفيذ الأمر التالي.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

بمجرد أن يكون لدينا رمز JWT ، يرجى الأمر التالي لإجراء OCR عبر الإنترنت وتحويل Image PDF إلى مستند PDF قابل للبحث. ثم يتم تخزين الملف الناتج في التخزين السحابي.

curl -v -X GET "https://api.aspose.cloud/v4.0/words/Resultant.docx?format=TIFF&outPath=converted.tiff" \
-H  "accept: application/octet-stream" \
-H  "Authorization: Bearer <JWT Token>"

استنتاج

في هذه المقالة ، ناقشنا بعض الخطوات البسيطة والمدهشة لتحويل Image PDF إلى ملف PDF قابل للبحث باستخدام Java Cloud SDK. لذلك نحصل على خيار إما استخدام مقتطف كود Java أو أوامر cURL لإنجاز OCR PDF. بصرف النظر عن هذا النهج ، قد تفكر في الوصول إلى واجهة برمجة التطبيقات من خلال متصفح الويب من خلال واجهة اختيال. علاوة على ذلك ، نظرًا لأن أدوات تطوير البرامج (SDK) الخاصة بنا مبنية بموجب ترخيص معهد ماساتشوستس للتكنولوجيا (MIT) ، فيمكن تنزيل كود المصدر الكامل من GitHub. في حالة مواجهة أية مشكلات أثناء استخدام واجهات برمجة التطبيقات ، فلا تتردد في الاتصال بنا عبر منتدى دعم المنتج.

مقالات ذات صلة

نوصي بشدة بزيارة الروابط التالية لمعرفة المزيد حول: