לחלץ טקסט pdf

חלץ טקסט מ-PDF באמצעות .NET REST API.

מסמכי PDF הפכו לסטנדרט לשיתוף והחלפת מידע בין פלטפורמות והתקנים שונים. בעוד שקובצי PDF מציעים פורמט מאובטח ועקבי, חילוץ נתונים חיוניים ממסמכים אלה יכולה להיות משימה מרתיעה, במיוחד כאשר עוסקים בכמויות גדולות של מידע. בין אם אתה צריך לחלץ טקסט לצורך ניתוח, הזנת נתונים או מניפולציה של תוכן, פתרון חילוץ טקסט אמין ויעיל הוא חיוני. במאמר זה, אנו מתעמקים בעולם של חילוץ טקסט מקובצי PDF באמצעות .NET REST API, המופעל על ידי ה-SDK הענן Aspose.PDF החזק.

REST API לעיבוד PDF

Aspose.PDF Cloud SDK עבור .NET הוא API חזק וידידותי למשתמש המפשט את חילוץ הטקסט מקובצי PDF. אחת התכונות הבולטות של Aspose.PDF Cloud SDK עבור .NET היא היכולת שלו להתמודד עם מבני PDF מורכבים ולחלץ במדויק טקסט ממסמכים עם פריסות מגוונות. בין אם ה-PDF מכיל טקסט, תמונות, טבלאות או אלמנטים מורכבים אחרים, ה-API יכול לנווט בצורה חכמה במסמך ולאחזר את תוכן הטקסט בדיוק. לכן, התכונות החזקות, הדיוק וקלות האינטגרציה הופכים אותה לבחירה אידיאלית לחלץ נתונים טקסטואליים יקרי ערך ממסמכי PDF בתוך יישומי ה-.NET שלהם.

כעת, על מנת להתחיל עם תכונה זו, הצעד הראשון הוא להוסיף את ההפניה של Cloud SDK בפתרון ה-.NET שלנו. אז, חפש את ‘Aspose.PDF-Cloud’ במנהל החבילות של NuGet ולחץ על כפתור ‘הוסף חבילה’. שנית, בקר במרכז השליטה בענן וקבל את אישורי הלקוח המותאמים אישית שלך.

חלץ טקסט PDF באמצעות C# .NET

בסעיף זה, אנו הולכים לחקור את הפרטים כדי לחלץ טקסט מ-PDF באופן פרוגרמטי.

// לדוגמאות מלאות וקבצי נתונים, נא עבור אל 
https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-dotnet

// קבל אישורי לקוח מ-https://dashboard.aspose.cloud/
string clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
string clientID = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";

// צור מופע של PdfApi
PdfApi pdfApi = new PdfApi(clientSecret, clientID);

// הזן שם קובץ PDF
String inputFile = "Binder1-1.pdf";
// קרא את התוכן של קובץ PDF לתוך מופע הזרם
var sourceFile = System.IO.File.OpenRead(inputFile);

// העלה קובץ PDF לאחסון בענן
pdfApi.UploadFile("inputPDF.pdf", sourceFile);

// קואורדינטת X של הפינה השמאלית התחתונה
Double LLX = 500.0;
// Y - קואורדינטה של הפינה השמאלית התחתונה.
Double LLY = 500.0;
// X - קואורדינטה של הפינה הימנית העליונה.
Double URX = 800.0;
// Y - קואורדינטה של הפינה הימנית העליונה.
Double URY = 800.0;

// התקשר ל-API כדי לחלץ טקסט מקואורדינטות מסוימות במסמך PDF
TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);

// חצו דרך התרחשות טקסט בודדת
for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
    // לכתוב תוכן טקסט במסוף
    Console.WriteLine(response.TextOccurrences.List[counter].Text);
}
חלץ טקסט pdf

תצוגה מקדימה של טקסט שנשלף ממסמך PDF.

להלן הפרטים לגבי קטע הקוד האמור לעיל.

PdfApi pdfApi = new PdfApi(clientSecret, clientID);

ראשית, צור מופע של מחלקת PdfApi שבו אנו מעבירים אישורי לקוח כטיעונים.

String inputFile = "Binder1-1.pdf";
var sourceFile = System.IO.File.OpenRead(inputFile);

טען את התוכן של קובץ PDF הקלט כדי להזרים מופע.

pdfApi.UploadFile("inputPDF.pdf", sourceFile);

העלה את מסמך ה-PDF לאחסון בענן.

TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);

התקשר ל-API כדי לחלץ טקסט מקובץ PDF בקואורדינטות עמוד מסוימות.

for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
    // write text content in console
    Console.WriteLine(response.TextOccurrences.List[counter].Text);
}

חזור על הרשימה המכילה מופעי טקסט שחולצו והדפיס את מופעי הטקסט במסוף.

ניתוח טקסט מ-PDF באמצעות פקודות cURL

באמצעות פקודות cURL בשילוב עם Aspose.PDF Cloud API, אתה יכול לחלץ ללא מאמץ תוכן טקסט מקובצי PDF המתארחים באחסון הענן. ה-API תומך במגוון פרמטרים להתאמה אישית של תהליך החילוץ, ומאפשר לך לציין קואורדינטות ואפשרויות אחרות לחילוץ טקסט בדיוק.

הצעד הראשון בגישה זו הוא יצירת אסימון גישה JWT תוך ביצוע הפקודה הבאה.

curl -v "https://api.aspose.cloud/connect/token" \
 -X POST \
 -d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
 -H "Content-Type: application/x-www-form-urlencoded" \
 -H "Accept: application/json"

לאחר יצירת אסימון JWT, אנא בצע את הפקודה הבאה כדי למשוך את הטקסט ממסמך ה-PDF.

curl -v "https://api.aspose.cloud/v3.0/pdf/{inputPDF}/text?splitRects=true&LLX=10&LLY=10&URX=800&URY=800" \
-X GET \
-H  "accept: application/json" \
-H  "authorization: Bearer {accessToken}" \
-o "extractedContent.txt"

החלף את ‘inputPDF’ בשם מסמך ה-PDF שכבר זמין באחסון בענן, ואת ‘accessToken’ באסימון JWT שנוצר לעיל.

סיכום

לסיכום, גם ה-Aspose.PDF Cloud SDK עבור .NET וגם גישת הפקודות cURL מציעות פתרונות יעילים ואמינים לחילוץ טקסט ממסמכי PDF. Aspose.PDF Cloud SDK עבור .NET מספק API מקיף וידידותי למפתחים עם מגוון רחב של תכונות, מה שהופך אותו לבחירה רבת עוצמה לשילוב חילוץ טקסט PDF באפליקציות NET. מצד שני, גישת הפקודה cURL מציעה שיטה גמישה ובלתי תלויה בפלטפורמה לאינטראקציה עם Aspose.PDF Cloud API, מה שהופך אותה לאופציה מצוינת עבור מפתחים העובדים בסביבות ושפות תכנות שונות.

קישורים שימושיים

מאמרים קשורים

אנו ממליצים בחום לבקר בבלוגים הבאים: