PDF اسکن شده برای جستجو

تصاویر یکی از اجزای جدایی ناپذیر برای به اشتراک گذاری داده ها هستند و برخی از برنامه ها مستقیماً محتوای منبع را در قالب PDF ارائه می دهند. اما این راحتی باعث افزایش هزینه زمانی می شود که باید محتوای خاصی را در داخل سند جستجو کنیم. در آن سناریو، شخص باید کل سند را به صورت دستی مرور کند تا اطلاعات مربوطه را پیدا کند. بنابراین رویکرد توصیه شده همیشه تولید فایل هایی است که قابل جستجو و مدیریت آسان باشند. با این حال، اگر فایل‌های PDF را دریافت کرده‌اید که نمی‌توانید قالب اسناد را در منبع کنترل کنید، بنابراین برای بایگانی و نمایه‌سازی داده‌ها، باید چنین اسنادی را به یک قالب قابل جستجو تبدیل کنیم. در این مقاله، ما قصد داریم جزئیات مربوط به نحوه اجرای OCR PDF آنلاین و تبدیل فایل‌های PDF اسکن شده/تصویری به اسناد PDF قابل جستجو/متن را مورد بحث قرار دهیم.

API پردازش PDF

Aspose.PDF Cloud برنده جایزه API ایجاد و دستکاری PDF مبتنی بر معماری REST ما است. با استفاده از همان API، می‌توانید عملیات‌های مختلفی مانند تبدیل EPUB به PDF، تبدیل HTML به PDF، تبدیل XPS به PDF، تبدیل DOC و Doc X به PDF، تبدیل XPS به PDF، درج تصاویر در این فایل‌های ابری و غیره در فایل‌های ابری جدید یا موجود انجام شود. از هر پلتفرمی قابل دسترسی است.

PDF OCR با استفاده از دستور cURL

دستورات cURL یک راه آسان برای دسترسی به Aspose.PDF Cloud از طریق ترمینال خط فرمان است. اما قبل از دسترسی به APIها، ابتدا باید از Aspose.Cloud dashboard دیدن کنید و اگر حساب GitHub یا Google دارید، به سادگی ثبت نام کنید. در غیر این صورت روی دکمه Create a new Account کلیک کنید و اطلاعات مورد نیاز را ارائه دهید. اکنون با استفاده از اعتبارنامه وارد داشبورد شوید و بخش Applications را از داشبورد گسترش دهید و به سمت پایین به سمت قسمت Client Credentials حرکت کنید تا Client ID و Client Secret را ببینید.

اکنون مرحله بعدی تولید JSON Web Token (JWT) است تا APIها از طریق خط فرمان قابل دسترسی باشند.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=a41d01ef-dfd5-4e02-ad29-bd85fe41e3e4&client_secret=d87269aade6a46cdc295b711e26809af" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

هنگامی که توکن JWT را دریافت کردیم، دستور cURL زیر را در ترمینال خط فرمان اجرا کنید.

curl -X PUT "https://api.aspose.cloud/v3.0/pdf/ocrscan.pdf/ocr?lang=eng" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>"

PDF اسکن شده را به قابل جستجو در Java تبدیل کنید

به منظور تسهیل برنامه نویسان جاوا، یک پوشش در اطراف Aspose.PDF Cloud ایجاد شده است تا بتوان به راحتی به تمام ویژگی های Cloud API در کد Java دسترسی داشت. به طور مشابه، برای انجام عملیات OCR روی PDF اسکن شده، باید از Aspose.PDF Cloud SDK for Java استفاده کنیم.

بنابراین اولین قدم نصب SKD بر روی سیستم است. Cloud SDK برای دانلود از طریق Maven و GitHub در دسترس است. اکنون جزئیات زیر را در فایل pom.xml خود اضافه کنید تا دانلود کنید و از Aspose.Pdf.jar در پروژه ساخت Maven خود استفاده کنید.

<repositories>
 <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>https://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>
<dependencies>
 <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-pdf-cloud</artifactId>
        <version>21.1.0</version>
        <scope>compile</scope>
    </dependency>
 </dependencies>

برای اطلاعات بیشتر، لطفاً به [نحوه نصب Aspose.Cloud SDK12 مراجعه کنید.

مراحل زیر فرآیند عملیات COR را بر روی فایل PDF تصویر تعریف می کند.

  • اولین مرحله ایجاد یک شی PdfApi در حین انتقال اطلاعات محرمانه ClientID و Client است (موجود در Aspose.Cloud dashboard).
  • یک نمونه File ایجاد کنید و مکان فایل تصویر را به عنوان آرگومان ارسال کنید.
  • متد uploadFile(…) را فراخوانی کنید و سند PDF و نمونه فایل را به عنوان آرگومان ارسال کنید.
  • مرحله بعدی این است که یک نمونه رشته ایجاد کنید و مقدار آن را به کد زبانی که فایل منبع حاوی “rus,eng” است، تنظیم کنید.
  • در نهایت، متد putSearchableDocument(…) PdfApi را فراخوانی کنید و نام فایل PDF ورودی و کد زبان را به عنوان آرگومان ارسال کنید.

زبان های موتور OCR. مقادیر پشتیبانی شده: eng، ara، bel، ben، bul، ces، dan، deu، ell، fin، fra، heb، hin، ind، isl، ita، jpn، kor، nld، nor، pol، por، ron، rus، spa، swe، tha، tur، ukr، viechi، eng orrus، ترکیب آنها.

// ClientID و ClientSecret را از https://dashboard.aspose.cloud/ دریافت کنید
String clientId = "a41d01ef-dfd5-4e02-ad29-bd85fe41e3e4";
String clientSecret = "d87269aade6a46cdc295b711e26809af";
				
// نمونه createPdfApi
PdfApi pdfApi = new PdfApi(clientSecret,clientId);
				
// سند PDF را وارد کنید
String name = "ocrscan.pdf";	        
			    
// فایل را از سیستم محلی بارگیری کنید
File file = new File("/Users/nayyershahbaz/Downloads/" + name);
// فایل را در فضای ذخیره سازی ابری آپلود کنید
FilesUploadResult uploadResponse = pdfApi.uploadFile(name, file, null);
				
// زبان های استفاده شده در فایل تصویری
String lang = "rus,eng";
				
//  OCR را روی سند PDF تصویر انجام دهید
AsposeResponse response = pdfApi.putSearchableDocument(name, null, null, lang);
assertEquals(200, (int)response.getCode());
پیش نمایش نتیجه OCR

تصویر 1: - پیش نمایش خروجی OCR.

نمونه فایل های پی دی اف استفاده شده در مثال بالا را می توانید از لینک های زیر دانلود کنید:

نتیجه گیری

در این مقاله چند مرحله ساده در مورد نحوه انجام عملیات OCR PDF آنلاین و تبدیل سند PDF اسکن شده به یک سند PDF قابل جستجو را یاد گرفته ایم. به غیر از عملیات OCR، SDK بسیار قدرتمند است و می تواند عملیات های مختلف دیگری را انجام دهد. برای جزئیات بیشتر، لطفاً از Aspose.PDF Cloud Features دیدن کنید.