קובץ PDF מורכב בדרך כלל מטקסט, תמונה, כותרת, הערות ואלמנטים אחרים. ומכיוון שהפורמט הזה שומר על פריסת המסמך על פני פלטפורמות (שולחן עבודה / נייד וכו’), כך נעשה בו שימוש נרחב לשיתוף מידע דרך האינטרנט. עם זאת, ייתכן שתהיה לנו דרישה לחלץ תוכן טקסטואלי של מסמך PDF להמשך עיבוד. אז במאמר זה, אנו הולכים לדון בפרטים כיצד לחלץ טקסט מ-PDF באמצעות Java Cloud SDK. לאחר השלמת הפעולה, הפלט נשמר בפורמט TXT.
API להמרה של PDF ל-TXT
Aspose.PDF Cloud SDK עבור Java הוא פתרון ה-REST API עטור הפרסים שלנו המציע את היכולות ליצור, לערוך ולהמיר PDF ל-JPG, XPS, HTML, DOCX ועוד מגוון פורמטים נתמכים. כעת על מנת ליישם את יכולות זיהוי הטקסט של PDF ביישום Java, אנא הוסף את הפרטים הבאים ב-pom.xml של פרויקט מסוג maven build.
<repositories>
<repository>
<id>aspose-cloud</id>
<name>artifact.aspose-cloud-releases</name>
<url>https://artifact.aspose.cloud/repo</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf-cloud</artifactId>
<version>21.11.0</version>
</dependency>
</dependencies>
לאחר התקנת ה-SDK, השלב החשוב הבא הוא יצירת חשבון חינמי על Aspose Cloud. אז אנא התחבר באמצעות חשבון חדש שנוצר וחפש/צור מזהה לקוח וסוד לקוח ב-Cloud Dashboard. פרטים אלה נדרשים בסעיפים הבאים.
PDF לטקסט ב-Java
אנא בצע את השלבים המפורטים להלן כדי לבצע המרת PDF לטקסט באמצעות Java Cloud SDK. אז לאחר המרה מוצלחת, קובץ ה-TXT שנוצר נשמר באחסון בענן.
- ראשית עלינו ליצור אובייקט PdfApi תוך מתן זיהוי לקוח וסוד לקוח כארגומנטים
- שנית, טען את קובץ ה-PDF הקלט באמצעות מופע קובץ
- העלה את קובץ PDF הקלט לאחסון בענן באמצעות שיטת uploadFile(…).
- צור משתנה שלם המציין את מספר העמוד של PDF עבור חילוץ טקסט ומופעים כפולים המציינים את האזור המלבני של הדף שממנו עלינו לחלץ את התוכן הטקסטואלי
- לבסוף קרא לשיטת getPageText(…) כדי להביא תוכן טקסטואלי מ-PDF קלט
try
{
// קבל ClientID ו-ClientSecret מ-https://dashboard.aspose.cloud/
String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
// צור מופע של PdfApi
PdfApi pdfApi = new PdfApi(clientSecret,clientId);
// שם מסמך PDF הקלט
String inputFile = "marketing.pdf";
// קרא את התוכן של קובץ PDF הקלט
File file = new File("//Users//"+inputFile);
// העלה PDF לאחסון בענן
pdfApi.uploadFile("input.pdf", file, null);
// דף ספציפי של PDF להמרה
int pageNumber =1;
// קואורדינטת X של הפינה השמאלית התחתונה
Double LLX = 0.0;
// Y - קואורדינטה של הפינה השמאלית התחתונה.
Double LLY = 0.0;
// X - קואורדינטה של הפינה הימנית העליונה.
Double URX = 800.0;
// Y - קואורדינטה של הפינה הימנית העליונה.
Double URY = 800.0;
// קרא API כדי להמיר PDF לטקסט
TextRectsResponse response = pdfApi.getPageText(inputFile, pageNumber, LLX, LLY, URX, URY, null, null, true, null, "default");
// מופע קובץ TXT שנוצר
FileWriter myWriter = new FileWriter("filename.txt");
// כעת עברו דרך התרחשות טקסט בודדת קבל תוצאת הדפסה במסוף
for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
{
// לכתוב תוכן טקסט לקובץ TXT
myWriter.write(response.getTextOccurrences().getList().get(counter).getText());
}
// סגור את המטפל ב-TXT
myWriter.close();
System.out.println("Text successfully extracted from PDF !");
}catch(Exception ex)
{
System.out.println(ex);
}
ניתן להוריד את קובץ ה-PDF לדוגמה המשמש בדוגמה לעיל מ-marketing.pdf ו-extracted.txt
חלץ טקסט מ-PDF באמצעות פקודות cURL
ניתן לגשת בקלות אל ממשקי ה- REST API באמצעות פקודות cURL, אז בסעיף זה, אנו הולכים לחקור את האפשרות כיצד נוכל לחלץ תוכן טקסטואלי מ-PDF באמצעות פקודות cURL. אז כדרישה מוקדמת, עלינו ליצור תחילה אסימון גישה ל-JWT (בהתבסס על אישורי לקוח) תוך ביצוע הפקודה הבאה.
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
ברגע שיש לנו את אסימון JWT, עלינו לבצע את הפקודה הבאה כדי לחלץ את כל מופעי הטקסט בתוך מסמך PDF.
curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H "accept: application/json" \
-H "authorization: Bearer <JWT Token>"
סיכום
מאמר זה הסביר את הפרטים כיצד להמיר PDF ל-TXT באמצעות Java Cloud SDK. במקביל, בדקנו גם את האפשרויות לחילוץ טקסט מ-PDF באמצעות פקודות cURL. אז עם הגמישות של מעבר בין דפי PDF מרובים, אנו מקבלים שליטה היכן לחלץ את התוכן. אנו ממליצים לך בחום לחקור את המוצר תיעוד כדי ללמוד עוד על התכונות המרגשות האחרות המוצעות על ידי Java Cloud API. כמו כן, מכיוון שכל ערכות SDK הענן שלנו מתפרסמות ברישיון MIT, אז אתה יכול לשקול להוריד את קוד המקור המלא מ-GitHub ולשנות אותו בהתאם לדרישות שלך. בכל מקרה של בעיה, אתה יכול לשקול לפנות אלינו לפתרון מהיר באמצעות פורום תמיכת מוצרים בחינם.
מאמרים קשורים
אנא בקר בקישורים הבאים כדי ללמוד עוד על: