ממיר PDF ל-TXT

כיצד להמיר PDF ל-TXT באמצעות Java

קובץ PDF מורכב בדרך כלל מטקסט, תמונה, כותרת, הערות ואלמנטים אחרים. ומכיוון שהפורמט הזה שומר על פריסת המסמך על פני פלטפורמות (שולחן עבודה / נייד וכו’), כך נעשה בו שימוש נרחב לשיתוף מידע דרך האינטרנט. עם זאת, ייתכן שתהיה לנו דרישה לחלץ תוכן טקסטואלי של מסמך PDF להמשך עיבוד. אז במאמר זה, אנו הולכים לדון בפרטים כיצד לחלץ טקסט מ-PDF באמצעות Java Cloud SDK. לאחר השלמת הפעולה, הפלט נשמר בפורמט TXT.

API להמרה של PDF ל-TXT

Aspose.PDF Cloud SDK עבור Java הוא פתרון ה-REST API עטור הפרסים שלנו המציע את היכולות ליצור, לערוך ולהמיר PDF ל-JPG, XPS, HTML, DOCX ועוד מגוון פורמטים נתמכים. כעת על מנת ליישם את יכולות זיהוי הטקסט של PDF ביישום Java, אנא הוסף את הפרטים הבאים ב-pom.xml של פרויקט מסוג maven build.

<repositories> 
    <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>https://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-pdf-cloud</artifactId>
        <version>21.11.0</version>
    </dependency>
</dependencies>

לאחר התקנת ה-SDK, השלב החשוב הבא הוא יצירת חשבון חינמי על Aspose Cloud. אז אנא התחבר באמצעות חשבון חדש שנוצר וחפש/צור מזהה לקוח וסוד לקוח ב-Cloud Dashboard. פרטים אלה נדרשים בסעיפים הבאים.

PDF לטקסט ב-Java

אנא בצע את השלבים המפורטים להלן כדי לבצע המרת PDF לטקסט באמצעות Java Cloud SDK. אז לאחר המרה מוצלחת, קובץ ה-TXT שנוצר נשמר באחסון בענן.

  • ראשית עלינו ליצור אובייקט PdfApi תוך מתן זיהוי לקוח וסוד לקוח כארגומנטים
  • שנית, טען את קובץ ה-PDF הקלט באמצעות מופע קובץ
  • העלה את קובץ PDF הקלט לאחסון בענן באמצעות שיטת uploadFile(…).
  • צור משתנה שלם המציין את מספר העמוד של PDF עבור חילוץ טקסט ומופעים כפולים המציינים את האזור המלבני של הדף שממנו עלינו לחלץ את התוכן הטקסטואלי
  • לבסוף קרא לשיטת getPageText(…) כדי להביא תוכן טקסטואלי מ-PDF קלט
try
    {
    // קבל ClientID ו-ClientSecret מ-https://dashboard.aspose.cloud/
    String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
    String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
	  
    // צור מופע של PdfApi
    PdfApi pdfApi = new PdfApi(clientSecret,clientId);

    // שם מסמך PDF הקלט
    String inputFile = "marketing.pdf";

    // קרא את התוכן של קובץ PDF הקלט
    File file = new File("//Users//"+inputFile);
	    
    // העלה PDF לאחסון בענן
    pdfApi.uploadFile("input.pdf", file, null);

    // דף ספציפי של PDF להמרה
    int pageNumber =1;

    // קואורדינטת X של הפינה השמאלית התחתונה
    Double LLX = 0.0;
    // Y - קואורדינטה של הפינה השמאלית התחתונה.
    Double LLY = 0.0;
    // X - קואורדינטה של הפינה הימנית העליונה.
    Double URX = 800.0;
    // Y - קואורדינטה של הפינה הימנית העליונה.
    Double URY = 800.0;
	       
    // קרא API כדי להמיר PDF לטקסט
    TextRectsResponse response = pdfApi.getPageText(inputFile, pageNumber, LLX, LLY, URX, URY, null, null, true, null, "default");	    
    
    // מופע קובץ TXT שנוצר
    FileWriter myWriter = new FileWriter("filename.txt");
  
    // כעת עברו דרך התרחשות טקסט בודדת קבל תוצאת הדפסה במסוף
    for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
    {
        // לכתוב תוכן טקסט לקובץ TXT
	myWriter.write(response.getTextOccurrences().getList().get(counter).getText());
    }
  
    // סגור את המטפל ב-TXT
    myWriter.close();
    
    System.out.println("Text successfully extracted from PDF !");
    }catch(Exception ex)
    {
	      System.out.println(ex);
    }
המרת PDF ל-TXT

תמונה 1: - תצוגה מקדימה של המרת PDF ל-TXT

ניתן להוריד את קובץ ה-PDF לדוגמה המשמש בדוגמה לעיל מ-marketing.pdf ו-extracted.txt

חלץ טקסט מ-PDF באמצעות פקודות cURL

ניתן לגשת בקלות אל ממשקי ה- REST API באמצעות פקודות cURL, אז בסעיף זה, אנו הולכים לחקור את האפשרות כיצד נוכל לחלץ תוכן טקסטואלי מ-PDF באמצעות פקודות cURL. אז כדרישה מוקדמת, עלינו ליצור תחילה אסימון גישה ל-JWT (בהתבסס על אישורי לקוח) תוך ביצוע הפקודה הבאה.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

ברגע שיש לנו את אסימון JWT, עלינו לבצע את הפקודה הבאה כדי לחלץ את כל מופעי הטקסט בתוך מסמך PDF.

curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>"

סיכום

מאמר זה הסביר את הפרטים כיצד להמיר PDF ל-TXT באמצעות Java Cloud SDK. במקביל, בדקנו גם את האפשרויות לחילוץ טקסט מ-PDF באמצעות פקודות cURL. אז עם הגמישות של מעבר בין דפי PDF מרובים, אנו מקבלים שליטה היכן לחלץ את התוכן. אנו ממליצים לך בחום לחקור את המוצר תיעוד כדי ללמוד עוד על התכונות המרגשות האחרות המוצעות על ידי Java Cloud API. כמו כן, מכיוון שכל ערכות SDK הענן שלנו מתפרסמות ברישיון MIT, אז אתה יכול לשקול להוריד את קוד המקור המלא מ-GitHub ולשנות אותו בהתאם לדרישות שלך. בכל מקרה של בעיה, אתה יכול לשקול לפנות אלינו לפתרון מהיר באמצעות פורום תמיכת מוצרים בחינם.

מאמרים קשורים

אנא בקר בקישורים הבאים כדי ללמוד עוד על: