PDF(Portable Document Format) קבצים הם בין הפורמטים המהימנים והנמצאים בשימוש הרחב ביותר לשיתוף מסמכים על פני פלטפורמות שונות—מבטיחים פריסת תוכן ומראה עקביים ללא קשר לתוכנה או למכשיר. עם זאת, ישנם מצבים שבהם מפתחים צריכים לחלץ טקסט מקבצי PDF באופן מתוכנת, כמו למשל ניתוח תוכן, אינדוקס של מסמכים, או המרת PDF לפורמטים טקסטואלים שניתן לערוך.

במאמר זה, אנחנו נחקור כיצד לחלץ טקסט מקבצי PDF ולבנות ממיר PDF לטקסט באמצעות .NET REST API, מה שיאפשר חפץ וניהול אוטומטי של חילוץ טקסט דרך קריאות REST API.

API לעיבוד PDF

נצל את הכוח של Aspose.PDF Cloud SDK for .NET כדי לחלץ טקסט מקבצי PDF בצורה יעילה. בנוסף לחילוץ טקסט, ה-SDK מאפשר לך ליצור מסמכי PDF מאפס או מתבניות, לערוך PDFים קיימים, ולהמיר אותם לפורמטים נתמכים אחרים. אתה גם יכול לבצע משימות כמו פענוח, מיזוג, ומניפולציה של קבצי PDF ישירות דרך ה-API REST של .NET.

עכשיו כדי להתחיל, אנחנו צריכים להתקין את ה-SDK בפרויקט ה-.NET שלנו.

NuGet\Install-Package Aspose.Pdf-Cloud -Version 25.9.0

אנו גם צריכים ליצור חשבון חינם ב Cloud Dashboard ולקבל את האישורים האישיים של הלקוח שלנו.

Perform PDF to Text Conversion in C#

אנא עקוב אחרי הצעדים המוזכרים למטה כדי לחלץ את הטקסט מקובץ PDF באמצעות C# .NET.

PdfApi pdfApi = new PdfApi(clientSecret, clientID);

צור אובייקט של מחלקת PdfApi שבו אנו מעבירים את אישורי הלקוח שהתקבלו למעלה כארגומנטים.

String inputFile = "sourceFile.pdf";
var sourceFile = System.IO.File.OpenRead(inputFile);
pdfApi.UploadFile("sourceFile.pdf", sourceFile);

Read the input PDF from local drive and upload to cloud storage using UploadFile(...) method.

TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);

אנו צריכים לציין את האזור בקובץ PDF שממנו אנו צריכים להוציא את תוכן הטקסט באמצעות שיטת GetText(...).

for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
    // write text content in console
    Console.WriteLine(response.TextOccurrences.List[counter].Text);
}

כשהתוכן הטקסטואלי נמשך, או שנוכל לשמור על הכונן המקומי או להדפיס אותו בקונסולה.

// ליותר דוגמאות, בבקשה בקר באתר https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-dotnet

// קבל את אישורי הלקוח מ- https://dashboard.aspose.cloud/
string clientSecret = "XXXXXXXXX";
string clientID = "XXXXXX-XXXXXXX-be35-ff5c3a6aa4a2";

// צור אובייקט של PdfApi תוך העברת נתוני לקוח כארגונים
PdfApi pdfApi = new PdfApi(clientSecret, clientID);

// Input PDF file name
String inputFile = "input.pdf";
// טען את קובץ ה-PDF למופע זרם
var sourceFile = OpenRead(inputFile);

// העלה את קובץ ה-PDF לאחסון בענן
pdfApi.UploadFile("inputPDF.pdf", sourceFile);

// X-coordinate of lower - left corner
Double LLX = 200.0;
// Y - קואורדינטה של הפינה התחתונה השמאלית.
Double LLY = 200.0;
// X - קואורדינטת ה-X של הפינה העליונה-ימנית.
Double URX = 600.0;
// y - קואורדינטה של הפינה הימנית העליונה.
Double URY = 650.0;

// Call the API to extract text from specified coordinates
TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);

// עכשיו חזור על כלOccurrence טקסט והדפס בקונסולה
// אופציה נוספת היא שאנחנו יכולים גם לשמור את הפלט ישירות לקובץ .txt.
for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
    // write text content in console
    Console.WriteLine(response.TextOccurrences.List[counter].Text);
}

להוציא טקסט מ-PDF באמצעות cURL

מלבד שימוש בקטעי קוד .NET או Java, אתה יכול גם להפיק טקסט מקבצי PDF באמצעות Aspose.PDF Cloud דרך פקודות cURL. לכן בגישה זו, הדרישות המוקדמות הן ליצור טוקן גישה JWT (על בסיס אישורי הלקוח שלך), שניתן להשיג באמצעות הפקודה הבאה.

שלב 1. - השג אסימון JWTAccess:

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=XXXXX-XXXXX-XXXXXX-ff5c3a6aa4a2&client_secret=XXXXXXXXXXXX" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

שלב 1. - חלץ טקסט מקובץ PDF:

curl -v "https://api.aspose.cloud/v3.0/pdf/{inputPDF}/text?splitRects=true&LLX=10&LLY=10&URX=800&URY=800" \
-X GET \
-H  "accept: application/json" \
-H  "authorization: Bearer {Access_Token}" \
-o "extractedContent.txt"
  • לאחר שהפקודה בוצעה בהצלחה, הטקסט מהאזור המרובע המוגדר מופרד לקובץ טקסט.

אפליקציית פודפאסטר חינם

אם אתה מחפש לבדוק את היכולות של ה-API ללא קוד או פקודות cURL, אז נסה להשתמש באפליקציית [Free PDF Parser] שלנו שנבנתה על גבי .NET REST APIs.

pdf parser app

הערות מסכמות

במאמר זה, למדנו על הפרטים כיצד לשלב את Aspose.PDF Cloud SDK עבור .NET לפרויקט ה-.NET שלנו למטרות חילוץ טקסט, ובאותה עת, חקרנו את האפשרות של שימוש בפקודות cURL כדי לבצע חילוץ טקסט מ-PDF דרך ממשק שורת הפקודה. אז, בין אם המטרה שלך היא ניתוח נתונים, למידת מכונה או מטרות אוטומציה אחרות, ה-SDK מעניק לך כלים אמינים כדי להתמודד עם תוכן PDF בצורה יעילה. הנח מיומנויות אלו לפרקטיקה ופשט את הטיפול ב-PDF שלך כמו מקצוען!

חומר קריאה

מאמרים קשורים

אנו גם ממליצים לבקר בלינקים הבאים כדי ללמוד עוד על: