בעולם מונע הנתונים של היום, PDF הפכו לפורמט הכרחי לאחסון ושיתוף מסמכים. עם זאת, לא כל קובצי ה-PDF ניתנים לחיפוש או לעריכה בקלות, במיוחד אלה המבוססים על תמונות. כאשר עוסקים במסמכים, זה באמת קשה להעתיק/לחלץ מידע טקסטואלי למניפולציה נוספת. למרבה המזל, עם הכוח של טכנולוגיית זיהוי תווים אופטי (OCR), אתה יכול להמיר קובצי PDF של תמונות לקובצי PDF הניתנים לחיפוש בקלות. בבלוג הטכני הזה, נחקור כיצד להמיר OCR PDF ל-PDF ניתן לחיפוש באמצעות טכניקות שונות, תוך התמקדות ספציפית ב-REST API. כמו כן, נדון כיצד לחלץ טקסט מקובצי OCR PDF, מה שנותן לך הבנה מקיפה כיצד למנף את טכנולוגיית OCR כדי לנצל את מלוא הפוטנציאל של מסמכי ה-PDF שלך.
OCR PDF באמצעות Java SDK
Aspose.PDF Cloud SDK עבור Java הוא API רב עוצמה מבוסס ענן המציע מגוון רחב של תכונות ויכולות לעבודה עם מסמכי PDF. אחת הפונקציות המרכזיות שלו היא היכולת לבצע OCR בקובצי PDF, מה שיכול לפשט מאוד את תהליך חילוץ הטקסט מקובצי PDF מבוססי תמונה ויצירת קובצי PDF הניתנים לחיפוש. עם הממשק הידידותי למשתמש והתיעוד המקיף שלו, SDK זה מקל על אוטומציה של תהליך ביצוע OCR בקובצי PDF, חיסכון בזמן והגדלת הפרודוקטיביות.
יתר על כן, ממשק API מבוסס ענן זה נועד להתמודד עם מגוון רחב של פורמטי קלט ואף יכול לזהות טקסט בכתב יד, מה שהופך אותו לבחירה מצוינת עבור עסקים ומפתחים המעוניינים לייעל את זרימת העבודה במסמכים שלהם. כעת הצעד הראשון הוא להוסיף את ההתייחסות שלו בפרויקט Java על ידי הוספת הפרטים הבאים ב-pom.xml של פרויקט maven build.
<repositories>
<repository>
<id>aspose-cloud</id>
<name>artifact.aspose-cloud-releases</name>
<url>https://artifact.aspose.cloud/repo</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf-cloud</artifactId>
<version>21.11.0</version>
</dependency>
</dependencies>
אם אין לך חשבון קיים, עליך ליצור חשבון בחינם דרך Aspose Cloud. התחבר באמצעות חשבון חדש שנוצר וחפש/צור מזהה לקוח וסוד לקוח ב-Cloud Dashboard. פרטים אלה נדרשים בסעיפים הבאים.
PDF סרוק ל-PDF ניתן לחיפוש באמצעות Java
סעיף זה מסביר את הפרטים כיצד להמיר PDF סרוק ל-PDF ניתן לחיפוש באמצעות קטע קוד Java. שימו לב ש-Java Cloud SDK תומך בזיהוי של השפות הבאות: eng, ara, bel, ben, bul, ces, dan, deu, ell, fin, fra, heb, hin, ind, isl, ita, jpn, kor, nld , nor, pol, por, ron, rus, spa, swe, tha, tur, ukr, vie, chisim, chitra או השילוב שלהם למשל eng,rus.
- ראשית עלינו ליצור אובייקט של PdfApi, שבו אנו מעבירים את ClientID ואת הפרטים הסודיים של Client כארגומנטים
- שנית, צור מופע של מחלקה File כדי לטעון את ה- Image PDF
- שלישית, קרא לשיטה uploadFile(…) כדי להעלות את ה-PDF הקלט לאחסון הענן
- מכיוון שה-PDF של התמונה שלנו מכיל טקסט באנגלית, אז עלינו ליצור אובייקט מחרוזת המחזיק את הערך “eng”
- לבסוף, קרא למתודה putSearchableDocument(…), הדורשת קלט PDF וקוד שפה כארגומנטים.
לאחר ביצוע הקוד בהצלחה, ה-PDF הניתן לחיפוש מאוחסן באחסון בענן
try
{
// קבל ClientID ו-ClientSecret מ-https://dashboard.aspose.cloud/
String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
// ליצור מופע PdfApi
PdfApi pdfApi = new PdfApi(clientSecret,clientId);
// קלט תמונה במסמך PDF
String name = "ScannedPDF.pdf";
// טען את הקובץ מהמערכת המקומית
File file = new File(name);
// העלה את הקובץ לאחסון בענן
FilesUploadResult uploadResponse = pdfApi.uploadFile(name, file, null);
// השפות המשמשות ב-PDF של תמונה
String lang = "eng";
// בצע את ה-OCR על מסמך PDF עם תמונה
AsposeResponse response = pdfApi.putSearchableDocument(name, null, null, lang);
// להדפיס הודעת הצלחה
System.out.println("OCR PDF successfull !");
}catch(Exception ex)
{
System.out.println(ex.getMessage());
}
ניתן להוריד את ה-PDF הסרוק המשמש בדוגמה לעיל מ-BusinessReport.pdf ואת ה-PDF הניתן לחיפוש שנוצר מ-Converted.pdf
OCR מקוון באמצעות פקודות cURL
פקודות cURL הן אחת הגישות הנוחות לקרוא ל- REST APIs. אז בסעיף זה, אנו הולכים להשתמש בפקודות cURL עבור OCR באינטרנט. כעת, כתנאי מוקדם, עלינו ליצור תחילה אסימון גישה ל-JWT (בהתבסס על אישורי לקוח) תוך ביצוע הפקודה הבאה.
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
ברגע שיש לנו אסימון JWT, אנא הפקודה הבאה כדי לבצע OCR מקוון ולהמיר תמונה PDF למסמך PDF שניתן לחיפוש. הקובץ שנוצר מאוחסן באחסון ענן.
curl -v -X GET "https://api.aspose.cloud/v4.0/words/Resultant.docx?format=TIFF&outPath=converted.tiff" \
-H "accept: application/octet-stream" \
-H "Authorization: Bearer <JWT Token>"
סיכום
ביצוע OCR בקובצי PDF הוא תהליך קריטי למיצוי מלוא הפוטנציאל של מסמכים אלה. בעזרת כלי OCR מבוססי ענן כמו Aspose.PDF Cloud SDK עבור Java, ניתן לפשט ולהפוך את התהליך הזה לאוטומטי, לחסוך זמן ולהגדיל את הפרודוקטיביות. על ידי מינוף כוחו של OCR, עסקים ומפתחים יכולים להפוך קובצי PDF מבוססי תמונה לקובצי PDF הניתנים לחיפוש, מה שמקל עליהם לחפש, לערוך ולשתף אותם. ברור שממשק API זה מציע מגוון תכונות ויכולות עוצמתיות לעבודה עם קובצי PDF. על ידי ביצוע המדריכים המפורטים בבלוג הטכני הזה, תוכל להתחיל עם OCR בקובצי PDF ולהעלות את זרימת העבודה של המסמכים שלך לשלב הבא.
אתה יכול לשקול גישה ל-API בתוך דפדפן אינטרנט באמצעות ממשק swagger. יתר על כן, מכיוון שה-SDK שלנו בנויים תחת רישיון MIT, כך ניתן להוריד את קוד המקור המלא מ-GitHub. במקרה שאתה נתקל בבעיות כלשהן במהלך השימוש ב-API, אל תהסס לפנות אלינו דרך פורום תמיכת מוצרים בחינם.
מאמרים קשורים
אנו ממליצים בחום לבקר בקישורים הבאים כדי ללמוד עוד על: