ملفات PDF(Portable Document Format) هي من بين أكثر التنسيقات موثوقية واستخدامًا على نطاق واسع لمشاركة الوثائق عبر مختلف المنصات - مما يضمن تخطيطًا ومظهرًا متسقين بغض النظر عن البرنامج أو الجهاز. ومع ذلك، هناك مواقف يحتاج فيها المطورون إلى استخراج النص من ملفات PDF برمجيًا، مثل تحليل المحتوى، وفهرسة الوثائق، أو تحويل ملفات PDF إلى تنسيقات نصية قابلة للتعديل.
في هذه المقالة، سنستكشف كيفية استخراج النص من ملفات PDF وبناء محول PDF إلى نص باستخدام واجهة برمجة تطبيقات REST الخاصة بـ .NET، مما يتيح استخراج النص بسهولة وأتمتة من خلال استدعاءات واجهة برمجة التطبيقات REST.
واجهة برمجة تطبيقات معالجة PDF
استفد من قوة Aspose.PDF Cloud SDK for .NET لاستخراج النص من ملفات PDF بكفاءة. بالإضافة إلى استخراج النص، يسمح لك SDK بإنشاء مستندات PDF من الصفر أو من القوالب، وتحرير ملفات PDF الموجودة، وتحويلها إلى صيغ أخرى مدعومة. يمكنك أيضًا القيام بمهام مثل فك تشفير، ودمج، ومعالجة ملفات PDF مباشرةً من خلال واجهة برمجة تطبيقات REST الخاصة بـ .NET.
الآن للبدء، نحتاج إلى تثبيت SDK في مشروع .NET الخاص بنا.
NuGet\Install-Package Aspose.Pdf-Cloud -Version 25.9.0
نحتاج أيضًا إلى إنشاء حساب مجاني على Cloud Dashboard والحصول على بيانات اعتماد العميل المخصصة لنا.
قم بتحويل PDF إلى نص في C#
يرجى اتباع الخطوات المذكورة أدناه لاستخراج النص من ملف PDF باستخدام C# .NET.
PdfApi pdfApi = new PdfApi(clientSecret, clientID);
أنشئ كائنًا من فئة PdfApi
حيث نقوم بتمرير بيانات اعتماد العميل التي تم الحصول عليها أعلاه كوسائط.
String inputFile = "sourceFile.pdf";
var sourceFile = System.IO.File.OpenRead(inputFile);
pdfApi.UploadFile("sourceFile.pdf", sourceFile);
اقرأ ملف PDF من محرك الأقراص المحلي وقم برفعه إلى التخزين السحابي باستخدام طريقة UploadFile(...)
.
TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);
نحتاج إلى تحديد المنطقة في ملف PDF من donde necesitamos extraer el contenido de texto utilizando el método GetText(...)
.
for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
// write text content in console
Console.WriteLine(response.TextOccurrences.List[counter].Text);
}
بمجرد استخراج محتوى النص، يمكننا إما حفظه على القرص المحلي أو طباعته في وحدة التحكم.
// للمزيد من الأمثلة، يرجى زيارة https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-dotnet
// احصل على بيانات اعتماد العميل من https://dashboard.aspose.cloud/
string clientSecret = "XXXXXXXXX";
string clientID = "XXXXXX-XXXXXXX-be35-ff5c3a6aa4a2";
// قم بإنشاء كائن من PdfApi مع تمرير بيانات اعتماد العميل كوسائط
PdfApi pdfApi = new PdfApi(clientSecret, clientID);
// Input PDF file name
String inputFile = "input.pdf";
// قم بتحميل ملف PDF في مثيل التدفق
var sourceFile = OpenRead(inputFile);
// تحميل ملف PDF إلى التخزين السحابي
pdfApi.UploadFile("inputPDF.pdf", sourceFile);
// إحداثي X للزاوية السفلى اليسرى
Double LLX = 200.0;
// إحداثي Y للزاوية السفلى اليسرى.
Double LLY = 200.0;
// إحداثي X للزاوية العلوية اليمنى.
Double URX = 600.0;
// Y - إحداثي الزاوية العليا اليمنى.
Double URY = 650.0;
// استدعاء واجهة برمجة التطبيقات لاستخراج النص من الإحداثيات المحددة
TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);
// الآن في تكرار من خلال كل ظهور نص وطباعة في وحدة التحكم
// بدلاً من ذلك، يمكننا أيضًا حفظ الناتج مباشرة في ملف .txt.
for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
// write text content in console
Console.WriteLine(response.TextOccurrences.List[counter].Text);
}
استخراج النص من ملف PDF باستخدام cURL
بصرف النظر عن استخدام مقتطفات كود .NET أو Java، يمكنك أيضًا استخراج النص من ملفات PDF باستخدام Aspose.PDF Cloud من خلال أوامر cURL. لذا في هذا النهج، المتطلبات المسبقة هي توليد رمز وصول JWT (استنادًا إلى بيانات اعتماد العميل الخاصة بك)، ويمكن الحصول عليه باستخدام الأمر التالي.
الخطوة 1. - الحصول على توكن JWTAccess:
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=XXXXX-XXXXX-XXXXXX-ff5c3a6aa4a2&client_secret=XXXXXXXXXXXX" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
الخطوة 1. - استخراج النص من ملف PDF:
curl -v "https://api.aspose.cloud/v3.0/pdf/{inputPDF}/text?splitRects=true&LLX=10&LLY=10&URX=800&URY=800" \
-X GET \
-H "accept: application/json" \
-H "authorization: Bearer {Access_Token}" \
-o "extractedContent.txt"
- بمجرد تنفيذ الأمر بنجاح، يتم استخراج النص من المنطقة المستطيلة المحددة إلى ملف نصي.
تطبيق بارسر PDF مجاني
إذا كنت تبحث عن اختبار قدرات واجهة برمجة التطبيقات دون أي ترميز أو أوامر cURL، فحاول استخدام تطبيقنا [Free PDF Parser] المبني على .NET REST APIs.

ملاحظات ختامية
في هذه المقالة، لقد تعلمنا التفاصيل حول كيفية دمج Aspose.PDF Cloud SDK لـ .NET في مشروع .NET الخاص بنا لأغراض استخراج النص، وفي نفس الوقت، قمنا باستكشاف خيار استخدام أوامر cURL لأداء استخراج النص من PDF عبر واجهة سطر الأوامر. لذا، سواء كان هدفك تحليل البيانات، أو التعلم الآلي، أو أغراض الأتمتة الأخرى، فإن SDK يمنحك أدوات موثوقة للتعامل مع محتوى PDF بكفاءة. ضع هذه المهارات موضع التنفيذ وقم بتبسيط التعامل مع PDF كالمحترفين!
مواد القراءة
- وثائق المنتج
- كود المصدر على GitHub
- مرجع واجهة برمجة التطبيقات
- دعم المنتج المجاني
- نسخة تجريبية مجانية
مقالات ذات صلة
نوصي أيضًا بزيارة الروابط التالية لمعرفة المزيد عن: