
תמונות הן אחד המרכיבים האינטגרליים לשיתוף נתונים וחלק מהיישומים מציגים ישירות את תוכן המקור בפורמט PDF. אבל הנוחות הזו מגדילה את העלות כשאנחנו צריכים לחפש תוכן מסוים בתוך המסמך. בתרחיש זה, יש לעבור על כל המסמך באופן ידני כדי למצוא את המידע הרלוונטי. לכן הגישה המומלצת היא תמיד ליצור קבצים שניתנים לחיפוש וקלים לניהול. עם זאת, אם קיבלת את קבצי PDF שבהם אינך יכול לשלוט בפורמט של מסמכים במקור, אז לצורך ארכיון נתונים ואינדקס, עלינו להמיר מסמכים כאלה לפורמט הניתן לחיפוש. במאמר זה, אנו הולכים לדון בפרטים כיצד לבצע PDF OCR מקוון ולהמיר קבצי PDF סרוקים / תמונה למסמכי PDF שניתנים לחיפוש / טקסט.
API לעיבוד PDF
Aspose.PDF Cloud הוא ה-API שלנו ליצירה ומניפולציה של PDF המבוסס על ארכיטקטורת REST עטור הפרסים. באמצעות אותו API, ניתן לבצע מגוון פעולות כגון המר EPUB ל-PDF, המר HTML ל-PDF, המר XPS ל-PDF, המר DOC ו-Doc X ל-PDF, המר XPS ל-PDF, הכנסת תמונות בקבצי PDF חדשים או קיימים וכו’. כל הפעולות הללו מבוצעות בענן ולכן ניתן לגשת ל-API מכל פלטפורמה.
PDF OCR באמצעות פקודת cURL
פקודות cURL הן דרך קלה לגשת לענן Aspose.PDF דרך מסוף שורת הפקודה. אבל לפני גישה לממשקי ה-API, עליך לבקר תחילה בAspose.Cloud dashboard ואם יש לך חשבון GitHub או Google, פשוט הירשם. אחרת, לחץ על הלחצן צור חשבון חדש וספק את המידע הנדרש. כעת היכנס ללוח המחוונים באמצעות אישורים והרחב את קטע היישומים מלוח המחוונים וגלול מטה אל הקטע אישורי לקוח כדי לראות את פרטי זיהוי הלקוח ופרטי סוד הלקוח.
כעת השלב הבא הוא ליצור JSON Web Token (JWT) כך שה-APIs יהיו נגישים דרך שורת הפקודה.
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=a41d01ef-dfd5-4e02-ad29-bd85fe41e3e4&client_secret=d87269aade6a46cdc295b711e26809af" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
ברגע שיש לנו את אסימון JWT, בצע את הפקודה cURL הבאה במסוף שורת הפקודה.
curl -X PUT "https://api.aspose.cloud/v3.0/pdf/ocrscan.pdf/ocr?lang=eng" \
-H "accept: application/json" \
-H "authorization: Bearer <JWT Token>"
המר PDF סרוק לאפשר חיפוש ב-Java
על מנת להקל על מתכנתי Java שלנו, נוצרה מעטפת סביב Aspose.PDF Cloud כך שניתן לגשת בקלות לכל התכונות של Cloud API בקוד Java. באופן דומה, על מנת לבצע את פעולת ה-OCR ב-PDF סרוק, עלינו להשתמש ב-Aspose.PDF Cloud SDK for Java.
אז הצעד הראשון הוא להתקין את ה-SKD על המערכת. ה-Cloud SDK זמין להורדה דרך Maven ו-GitHub. כעת הוסף את הפרטים הבאים בקובץ pom.xml שלך כדי להוריד ולהשתמש ב-Aspose.Pdf.jar בפרויקט הבנייה שלך ב-Maven.
<repositories>
<repository>
<id>aspose-cloud</id>
<name>artifact.aspose-cloud-releases</name>
<url>https://artifact.aspose.cloud/repo</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf-cloud</artifactId>
<version>21.1.0</version>
<scope>compile</scope>
</dependency>
</dependencies>
למידע נוסף, בקר בכתובת כיצד להתקין ערכות SDK של Aspose.Cloud.
השלבים הבאים מגדירים את תהליך פעולת ה-COR על קובץ PDF של תמונה.
- הצעד הראשון הוא ליצור אובייקט PdfApi תוך העברת פרטי ClientID ופרטים סודיים של הלקוח (זמין ב-Aspose.Cloud Dashboard).
- צור מופע של File והעבר את המיקום של קובץ התמונה כארגומנט.
- קרא למתודה uploadFile(…) והעבר מסמך PDF ומופע קובץ כארגומנטים.
- השלב הבא הוא ליצור מופע מחרוזת ולהגדיר את הערך שלו לקוד השפה שקובץ המקור מכיל כלומר “rus,eng”.
- לבסוף, קרא לשיטת putSearchableDocument(…) של PdfApi והעביר את שם קובץ ה-PDF בקלט והעברת קוד שפה כארגומנטים.
שפות עבור מנוע OCR. ערכים נתמכים: eng, ara, bel, ben, bul, ces, dan, deu, ell, fin, fra, heb, hin, ind, isl, ita, jpn, kor, nld, nor, pol, por, ron, rus, spa, swe, tha, tur, ukr, vie, chisim, chitra או השילוב שלהם, למשל eng,rus.
// קבל ClientID ו-ClientSecret מ-https://dashboard.aspose.cloud/
String clientId = "a41d01ef-dfd5-4e02-ad29-bd85fe41e3e4";
String clientSecret = "d87269aade6a46cdc295b711e26809af";
// ליצור מופע PDFApi
PdfApi pdfApi = new PdfApi(clientSecret,clientId);
// הזנת מסמך PDF
String name = "ocrscan.pdf";
// טען את הקובץ מהמערכת המקומית
File file = new File("/Users/nayyershahbaz/Downloads/" + name);
// העלה את הקובץ לאחסון בענן
FilesUploadResult uploadResponse = pdfApi.uploadFile(name, file, null);
// השפות המשמשות בקובץ התמונה
String lang = "rus,eng";
// בצע את ה-OCR על מסמך PDF עם תמונה
AsposeResponse response = pdfApi.putSearchableDocument(name, null, null, lang);
assertEquals(200, (int)response.getCode());

תמונה 1: - תצוגה מקדימה של פלט OCR.
ניתן להוריד את קובצי PDF לדוגמה המשמשים בדוגמה לעיל מהקישורים הבאים:
מַסְקָנָה
במאמר זה, למדנו כמה שלבים פשוטים כיצד לבצע פעולת PDF OCR מקוונת ולהמיר את מסמך ה-PDF הסרוק למסמך PDF הניתן לחיפוש. מלבד פעולות OCR, ה-SDK חזק למדי ויכול לבצע מגוון פעולות אחרות. לפרטים נוספים, בקר ב-Aspose.PDF Cloud Features.