اسناد PDF به استانداردی برای اشتراکگذاری و تبادل اطلاعات در پلتفرمها و دستگاههای مختلف تبدیل شدهاند. در حالی که فایلهای PDF فرمت امن و ثابتی را ارائه میدهند، استخراج دادههای ضروری از این اسناد میتواند کار دلهرهآوری باشد، بهویژه زمانی که با حجم زیادی از اطلاعات سروکار داریم. این که آیا شما نیاز به استخراج متن برای تجزیه و تحلیل، ورود داده ها یا دستکاری محتوا دارید، یک راه حل استخراج متن قابل اعتماد و کارآمد بسیار مهم است. در این مقاله، ما به دنیای استخراج متن از فایلهای PDF با استفاده از NET REST API که توسط Aspose.PDF Cloud SDK قدرتمند پشتیبانی میشود، میپردازیم.
- REST API برای پردازش PDF
- استخراج متن PDF با استفاده از C#.NET
- تجزیه و تحلیل متن از PDF با استفاده از دستورات cURL
REST API برای پردازش PDF
Aspose.PDF Cloud SDK for .NET یک API قوی و کاربرپسند است که استخراج متن از فایل های PDF را ساده می کند. یکی از ویژگی های برجسته Aspose.PDF Cloud SDK برای دات نت، توانایی آن در مدیریت ساختارهای پیچیده PDF و استخراج دقیق متن از اسناد با طرح بندی های متنوع است. خواه PDF حاوی متن، تصاویر، جداول یا سایر عناصر پیچیده باشد، API می تواند به طور هوشمندانه در سند حرکت کند و محتوای متن را با دقت بازیابی کند. بنابراین، ویژگیهای قدرتمند، دقت و سهولت یکپارچهسازی، آن را به انتخابی ایدهآل برای استخراج دادههای متنی ارزشمند از اسناد PDF در برنامههای NET خود تبدیل میکند.
اکنون، برای شروع با این ویژگی، اولین قدم اضافه کردن مرجع Cloud SDK در راه حل دات نت است. بنابراین، «Aspose.PDF-Cloud» را در NuGet packages manager جستجو کنید و روی دکمه «افزودن بسته» کلیک کنید. در مرحله دوم، از [داشبورد ابری] (https://dashboard.aspose.cloud/) بازدید کنید و اعتبار مشتری شخصی خود را دریافت کنید.
استخراج متن PDF با استفاده از C#.NET
در این بخش قصد داریم جزئیات استخراج متن از PDF را به صورت برنامه ای بررسی کنیم.
// برای نمونه های کامل و فایل های داده لطفا به ادامه مطلب بروید
https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-dotnet
// دریافت اعتبار مشتری از https://dashboard.aspose.cloud/
string clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
string clientID = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
// یک نمونه از PdfApi ایجاد کنید
PdfApi pdfApi = new PdfApi(clientSecret, clientID);
// نام فایل PDF را وارد کنید
String inputFile = "Binder1-1.pdf";
// محتوای فایل PDF را در نمونه جریان بخوانید
var sourceFile = System.IO.File.OpenRead(inputFile);
// فایل PDF را در فضای ذخیره سازی ابری آپلود کنید
pdfApi.UploadFile("inputPDF.pdf", sourceFile);
// مختصات X گوشه پایین - چپ
Double LLX = 500.0;
// Y - مختصات گوشه پایین سمت چپ.
Double LLY = 500.0;
// X - مختصات گوشه سمت راست بالا.
Double URX = 800.0;
// Y - مختصات گوشه سمت راست بالا.
Double URY = 800.0;
// برای استخراج متن از مختصات خاصی در سند PDF با API تماس بگیرید
TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);
// پیمایش از طریق بروز متن فردی
for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
// نوشتن محتوای متنی در کنسول
Console.WriteLine(response.TextOccurrences.List[counter].Text);
}
در زیر جزئیات مربوط به قطعه کد ذکر شده در بالا آورده شده است.
PdfApi pdfApi = new PdfApi(clientSecret, clientID);
ابتدا یک نمونه از کلاس PdfApi ایجاد کنید که در آن اعتبار مشتری را به عنوان آرگومان ارسال می کنیم.
String inputFile = "Binder1-1.pdf";
var sourceFile = System.IO.File.OpenRead(inputFile);
محتوای فایل PDF ورودی را برای پخش جریانی بارگیری کنید.
pdfApi.UploadFile("inputPDF.pdf", sourceFile);
سند PDF را در فضای ذخیره سازی ابری آپلود کنید.
TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);
برای استخراج متن از فایل PDF در مختصات صفحه خاص، با API تماس بگیرید.
for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
// write text content in console
Console.WriteLine(response.TextOccurrences.List[counter].Text);
}
در لیستی که حاوی رخدادهای متن استخراج شده است، تکرار کنید و نمونه های متنی را در کنسول چاپ کنید.
تجزیه و تحلیل متن از PDF با استفاده از دستورات cURL
با استفاده از دستورات cURL در ترکیب با Aspose.PDF Cloud API، میتوانید بدون زحمت محتوای متنی را از فایلهای PDF میزبانی شده در فضای ذخیرهسازی ابری استخراج کنید. API از پارامترهای مختلفی برای سفارشی کردن فرآیند استخراج پشتیبانی می کند و به شما امکان می دهد مختصات و سایر گزینه ها را برای استخراج متن با دقت مشخص کنید.
اولین قدم با این رویکرد، تولید یک نشانه دسترسی JWT در حین اجرای دستور زیر است.
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
هنگامی که توکن JWT تولید شد، لطفاً دستور زیر را اجرا کنید تا متن از سند PDF خارج شود.
curl -v "https://api.aspose.cloud/v3.0/pdf/{inputPDF}/text?splitRects=true&LLX=10&LLY=10&URX=800&URY=800" \
-X GET \
-H "accept: application/json" \
-H "authorization: Bearer {accessToken}" \
-o "extractedContent.txt"
«inputPDF» را با نام سند PDF که قبلاً در فضای ذخیرهسازی ابری موجود است، و «accessToken» را با توکن JWT که در بالا ایجاد شده است جایگزین کنید.
نتیجه
در نتیجه، هم Aspose.PDF Cloud SDK برای دات نت و هم رویکرد دستوری cURL راه حل های کارآمد و قابل اعتمادی را برای استخراج متن از اسناد PDF ارائه می دهند. Aspose.PDF Cloud SDK for .NET یک API جامع و مناسب برای توسعهدهندگان با طیف گستردهای از ویژگیها ارائه میکند که آن را به انتخابی قدرتمند برای ادغام استخراج متن PDF در برنامههای NET تبدیل میکند. از سوی دیگر، رویکرد دستور cURL یک روش منعطف و مستقل از پلتفرم را برای تعامل با Aspose.PDF Cloud API ارائه میکند و آن را به گزینهای عالی برای توسعهدهندگانی که در محیطها و زبانهای برنامهنویسی مختلف کار میکنند تبدیل میکند.
لینک های مفید
- راهنمای برنامهنویس
- مرجع API
- کد منبع SDK
- تالار گفتمان پشتیبانی رایگان
- [نمایشهای نمایشی زنده] (https://products.aspose.app/pdf/family)
مقالات مرتبط
ما به شدت توصیه می کنیم از وبلاگ های زیر دیدن کنید: