در دنیای امروزی مبتنی بر داده، PDF به قالبی ضروری برای ذخیره و به اشتراک گذاری اسناد تبدیل شده است. با این حال، همه PDF ها به راحتی قابل جستجو یا ویرایش نیستند، به خصوص آنهایی که مبتنی بر تصویر هستند. وقتی با اسناد سروکار دارید، کپی/استخراج هر گونه اطلاعات متنی برای دستکاری بیشتر واقعاً دشوار است. خوشبختانه، با قدرت فناوری تشخیص کاراکتر نوری (OCR)، میتوانید فایلهای PDF تصویر را به آسانی به فایلهای PDF قابل جستجو تبدیل کنید. در این وبلاگ فنی، نحوه تبدیل OCR PDF به PDF قابل جستجو با استفاده از تکنیک های مختلف، با تمرکز خاص بر REST API را بررسی خواهیم کرد. ما همچنین درباره نحوه استخراج متن از فایلهای PDF OCR بحث خواهیم کرد و به شما درک جامعی از نحوه استفاده از فناوری OCR برای باز کردن پتانسیل کامل اسناد PDF خود میدهیم.
- OCR PDF با استفاده از Java SDK
- اسکن PDF به PDF قابل جستجو با استفاده از جاوا
- OCR آنلاین با استفاده از دستورات cURL
OCR PDF با استفاده از Java SDK
Aspose.PDF Cloud SDK for Java یک API قدرتمند مبتنی بر ابر است که طیف گسترده ای از ویژگی ها و قابلیت ها را برای کار با اسناد PDF ارائه می دهد. یکی از قابلیت های کلیدی آن امکان انجام OCR روی فایل های PDF است که می تواند فرآیند استخراج متن از فایل های PDF مبتنی بر تصویر و ایجاد PDF قابل جستجو را تا حد زیادی ساده کند. این SDK با رابط کاربر پسند و مستندات جامع خود، خودکار کردن فرآیند انجام OCR روی فایلهای PDF را آسان میکند و باعث صرفهجویی در زمان و افزایش بهرهوری میشود.
علاوه بر این، این API مبتنی بر ابر برای مدیریت طیف گستردهای از فرمتهای ورودی طراحی شده است و حتی میتواند متن دستنویس را تشخیص دهد، و آن را به یک انتخاب عالی برای کسبوکارها و توسعهدهندگانی تبدیل میکند که به دنبال سادهسازی گردش کار اسناد خود هستند. اکنون اولین قدم اضافه کردن مرجع آن در پروژه جاوا با افزودن جزئیات زیر در pom.xml پروژه ساخت maven است.
<repositories>
<repository>
<id>aspose-cloud</id>
<name>artifact.aspose-cloud-releases</name>
<url>https://artifact.aspose.cloud/repo</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf-cloud</artifactId>
<version>21.11.0</version>
</dependency>
</dependencies>
اگر حساب موجود ندارید، باید یک حساب رایگان از طریق Aspose Cloud ایجاد کنید. با استفاده از حساب تازه ایجاد شده وارد شوید و Client ID و Client Secret را در Cloud Dashboard جستجو/ایجاد کنید. این جزئیات در بخش های بعدی مورد نیاز است.
اسکن PDF به PDF قابل جستجو با استفاده از جاوا
این بخش جزئیات نحوه تبدیل PDF اسکن شده به PDF قابل جستجو را با استفاده از قطعه کد جاوا توضیح می دهد. لطفاً توجه داشته باشید که Java Cloud SDK از تشخیص زبانهای زیر پشتیبانی میکند: eng، ara، bel، ben، bul، ces، dan، deu، ell، fin، fra، heb، hin، ind، isl، ita، jpn، kor، nld , nor, pol, por, ron, rus, spa, swe, tha, tur, ukr, vie, chisim, chitra یا ترکیب آنها مانند eng,rus.
- ابتدا باید یک شی از PdfApi ایجاد کنیم، جایی که ClientID و جزئیات مخفی Client را به عنوان آرگومان ارسال می کنیم.
- در مرحله دوم، یک نمونه از کلاس File ایجاد کنید تا تصویر PDF بارگذاری شود
- ثالثاً، روش uploadFile(…) را فراخوانی کنید تا PDF ورودی در فضای ذخیره سازی ابری بارگذاری شود
- از آنجایی که PDF تصویر ما حاوی متن انگلیسی است، بنابراین باید یک شی رشته ای ایجاد کنیم که دارای مقدار “eng” باشد.
- در نهایت، متد putSearchableDocument(…) را فراخوانی کنید، که به یک PDF ورودی و یک کد زبان به عنوان آرگومان نیاز دارد.
هنگامی که کد با موفقیت اجرا شد، PDF قابل جستجو در فضای ذخیره سازی ابری ذخیره می شود
try
{
// ClientID و ClientSecret را از https://dashboard.aspose.cloud/ دریافت کنید
String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
// نمونه createPdfApi
PdfApi pdfApi = new PdfApi(clientSecret,clientId);
// تصویر ورودی سند PDF
String name = "ScannedPDF.pdf";
// فایل را از سیستم محلی بارگیری کنید
File file = new File(name);
// فایل را در فضای ذخیره سازی ابری آپلود کنید
FilesUploadResult uploadResponse = pdfApi.uploadFile(name, file, null);
// زبان های مورد استفاده در PDF تصویر
String lang = "eng";
// OCR را روی سند PDF تصویر انجام دهید
AsposeResponse response = pdfApi.putSearchableDocument(name, null, null, lang);
// پیام موفقیت چاپ
System.out.println("OCR PDF successfull !");
}catch(Exception ex)
{
System.out.println(ex.getMessage());
}
PDF اسکن شده مورد استفاده در مثال بالا را می توان از BusinessReport.pdf و پی دی اف قابل جستجو حاصل از Converted.pdf دانلود کرد.
OCR آنلاین با استفاده از دستورات cURL
دستورات cURL یکی از روش های مناسب برای فراخوانی API های REST هستند. بنابراین در این بخش قصد داریم از دستورات cURL برای OCR به صورت آنلاین استفاده کنیم. اکنون به عنوان پیش نیاز، ابتدا باید یک توکن دسترسی JWT (بر اساس اعتبار مشتری) در حین اجرای دستور زیر تولید کنیم.
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
هنگامی که توکن JWT داشتیم، دستور زیر را برای انجام OCR به صورت آنلاین و تبدیل تصویر PDF به سند PDF قابل جستجو، دستور دهید. سپس فایل حاصل در فضای ذخیره سازی ابری ذخیره می شود.
curl -v -X GET "https://api.aspose.cloud/v4.0/words/Resultant.docx?format=TIFF&outPath=converted.tiff" \
-H "accept: application/octet-stream" \
-H "Authorization: Bearer <JWT Token>"
نتیجه
انجام OCR روی فایلهای PDF فرآیندی حیاتی برای باز کردن پتانسیل کامل این اسناد است. با کمک ابزارهای OCR مبتنی بر ابر مانند Aspose.PDF Cloud SDK برای جاوا، این فرآیند را می توان ساده و خودکار کرد و در زمان صرفه جویی کرد و بهره وری را افزایش داد. با استفاده از قدرت OCR، کسب و کارها و توسعه دهندگان می توانند PDF های مبتنی بر تصویر را به PDF قابل جستجو تبدیل کنند و جستجو، ویرایش و اشتراک گذاری آنها را آسان تر کنند. واضح است که این API طیف وسیعی از ویژگی ها و قابلیت های قدرتمند را برای کار با فایل های PDF ارائه می دهد. با پیروی از راهنماهای گام به گام ارائه شده در این وبلاگ فنی، می توانید با OCR در فایل های PDF شروع کنید و گردش کار سند خود را به سطح بعدی ببرید.
ممکن است دسترسی به API را در یک مرورگر وب با استفاده از اینترفیس swagger در نظر بگیرید. علاوه بر این، از آنجایی که SDK های ما تحت مجوز MIT ساخته شده اند، بنابراین کد منبع کامل را می توان از GitHub دانلود کرد. اگر هنگام استفاده از API با مشکلی مواجه شدید، لطفاً از طریق [تالار گفتمان پشتیبانی رایگان محصول] با ما تماس بگیرید.
مقالات مرتبط
توصیه می کنیم برای کسب اطلاعات بیشتر به لینک های زیر مراجعه کنید: