أصبحت مستندات PDF هي المعيار لمشاركة المعلومات وتبادلها عبر الأنظمة الأساسية والأجهزة المختلفة. على الرغم من أن ملفات PDF توفر تنسيقًا آمنًا ومتسقًا، إلا أن استخراج البيانات الأساسية من هذه المستندات يمكن أن يكون مهمة شاقة، خاصة عند التعامل مع كميات كبيرة من المعلومات. سواء كنت بحاجة إلى استخراج نص للتحليل أو إدخال البيانات أو معالجة المحتوى، فإن الحل الموثوق والفعال لاستخراج النص أمر بالغ الأهمية. في هذه المقالة، نتعمق في عالم استخراج النص من ملفات PDF باستخدام .NET REST API، المدعوم من Aspose.PDF Cloud SDK القوي.
REST API لمعالجة ملفات PDF
Aspose.PDF Cloud SDK for .NET عبارة عن واجهة برمجة تطبيقات قوية وسهلة الاستخدام تعمل على تبسيط عملية استخراج النص من ملفات PDF. إحدى الميزات البارزة في Aspose.PDF Cloud SDK for .NET هي قدرته على التعامل مع هياكل PDF المعقدة واستخراج النص بدقة من المستندات ذات التخطيطات المتنوعة. سواء كان ملف PDF يحتوي على نص أو صور أو جداول أو عناصر معقدة أخرى، يمكن لواجهة برمجة التطبيقات (API) التنقل بذكاء عبر المستند واسترداد محتوى النص بدقة. ولذلك، فإن الميزات القوية والدقة وسهولة التكامل تجعله خيارًا مثاليًا لاستخراج البيانات النصية القيمة من مستندات PDF داخل تطبيقات .NET الخاصة بهم.
الآن، للبدء بهذه الميزة، الخطوة الأولى هي إضافة مرجع Cloud SDK في حل .NET الخاص بنا. لذلك، ابحث عن “Aspose.PDF-Cloud” في مدير حزم NuGet وانقر فوق الزر “إضافة حزمة”. ثانيًا، قم بزيارة cloud Dashboard واحصل على بيانات اعتماد العميل المخصصة الخاصة بك.
استخراج نص PDF باستخدام C# .NET
في هذا القسم، سنستكشف تفاصيل استخراج النص من ملف PDF برمجيًا.
// للحصول على أمثلة كاملة وملفات البيانات، يرجى الذهاب إلى
https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-dotnet
// احصل على بيانات اعتماد العميل من https://dashboard.aspose.cloud/
string clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
string clientID = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
// إنشاء مثيل لـ PdfApi
PdfApi pdfApi = new PdfApi(clientSecret, clientID);
// إدخال اسم ملف PDF
String inputFile = "Binder1-1.pdf";
// اقرأ محتوى ملف PDF في مثيل الدفق
var sourceFile = System.IO.File.OpenRead(inputFile);
// تحميل ملف PDF إلى التخزين السحابي
pdfApi.UploadFile("inputPDF.pdf", sourceFile);
// الإحداثي X للزاوية السفلية اليسرى
Double LLX = 500.0;
// Y - إحداثيات الزاوية السفلية اليسرى.
Double LLY = 500.0;
// X - إحداثيات الزاوية العلوية اليمنى.
Double URX = 800.0;
// Y - إحداثيات الزاوية العلوية اليمنى.
Double URY = 800.0;
// اتصل بواجهة برمجة التطبيقات (API) لاستخراج النص من إحداثيات معينة في مستند PDF
TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);
// اجتياز من خلال حدوث النص الفردي
for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
// كتابة محتوى النص في وحدة التحكم
Console.WriteLine(response.TextOccurrences.List[counter].Text);
}
فيما يلي التفاصيل المتعلقة بمقتطف الشفرة المذكور أعلاه.
PdfApi pdfApi = new PdfApi(clientSecret, clientID);
أولاً، قم بإنشاء مثيل لفئة PdfApi حيث نقوم بتمرير بيانات اعتماد العميل كوسائط.
String inputFile = "Binder1-1.pdf";
var sourceFile = System.IO.File.OpenRead(inputFile);
قم بتحميل محتوى ملف PDF المدخل لدفق المثيل.
pdfApi.UploadFile("inputPDF.pdf", sourceFile);
قم بتحميل مستند PDF إلى التخزين السحابي.
TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);
اتصل بواجهة برمجة التطبيقات (API) لاستخراج النص من ملف PDF في إحداثيات صفحة معينة.
for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
// write text content in console
Console.WriteLine(response.TextOccurrences.List[counter].Text);
}
قم بالتكرار من خلال القائمة التي تحتوي على تكرارات النص المستخرجة وطباعة مثيلات النص في وحدة التحكم.
تحليل النص من PDF باستخدام أوامر cURL
باستخدام أوامر cURL مع Aspose.PDF Cloud API، يمكنك استخراج المحتوى النصي بسهولة من ملفات PDF المستضافة على وحدة التخزين السحابية. تدعم واجهة برمجة التطبيقات (API) مجموعة متنوعة من المعلمات لتخصيص عملية الاستخراج، مما يسمح لك بتحديد الإحداثيات وخيارات أخرى لاستخراج النص بدقة.
الخطوة الأولى في هذا الأسلوب هي إنشاء رمز وصول JWT أثناء تنفيذ الأمر التالي.
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
بمجرد إنشاء رمز JWT، يرجى تنفيذ الأمر التالي لسحب النص من مستند PDF.
curl -v "https://api.aspose.cloud/v3.0/pdf/{inputPDF}/text?splitRects=true&LLX=10&LLY=10&URX=800&URY=800" \
-X GET \
-H "accept: application/json" \
-H "authorization: Bearer {accessToken}" \
-o "extractedContent.txt"
استبدل “inputPDF” باسم مستند PDF المتوفر بالفعل في التخزين السحابي، و"accessToken" برمز JWT الذي تم إنشاؤه أعلاه.
خاتمة
في الختام، يقدم كل من Aspose.PDF Cloud SDK for .NET وأسلوب الأمر cURL حلولاً فعالة وموثوقة لاستخراج النص من مستندات PDF. توفر Aspose.PDF Cloud SDK for .NET واجهة برمجة تطبيقات شاملة وسهلة المطورين مع مجموعة واسعة من الميزات، مما يجعلها خيارًا قويًا لدمج استخراج نص PDF في تطبيقات .NET. من ناحية أخرى، يوفر نهج الأمر cURL طريقة مرنة ومستقلة عن النظام الأساسي للتفاعل مع Aspose.PDF Cloud API، مما يجعله خيارًا ممتازًا للمطورين الذين يعملون في بيئات ولغات برمجة مختلفة.
روابط مفيدة
مقالات ذات صلة
نوصي بشدة بزيارة المدونات التالية: