متن پی دی اف را استخراج کنید

استخراج متن از PDF با استفاده از NET REST API.

اسناد PDF به استانداردی برای اشتراک‌گذاری و تبادل اطلاعات در پلتفرم‌ها و دستگاه‌های مختلف تبدیل شده‌اند. در حالی که فایل‌های PDF فرمت امن و ثابتی را ارائه می‌دهند، استخراج داده‌های ضروری از این اسناد می‌تواند کار دلهره‌آوری باشد، به‌ویژه زمانی که با حجم زیادی از اطلاعات سروکار داریم. این که آیا شما نیاز به استخراج متن برای تجزیه و تحلیل، ورود داده ها یا دستکاری محتوا دارید، یک راه حل استخراج متن قابل اعتماد و کارآمد بسیار مهم است. در این مقاله، ما به دنیای استخراج متن از فایل‌های PDF با استفاده از NET REST API که توسط Aspose.PDF Cloud SDK قدرتمند پشتیبانی می‌شود، می‌پردازیم.

REST API برای پردازش PDF

Aspose.PDF Cloud SDK for .NET یک API قوی و کاربرپسند است که استخراج متن از فایل های PDF را ساده می کند. یکی از ویژگی های برجسته Aspose.PDF Cloud SDK برای دات نت، توانایی آن در مدیریت ساختارهای پیچیده PDF و استخراج دقیق متن از اسناد با طرح بندی های متنوع است. خواه PDF حاوی متن، تصاویر، جداول یا سایر عناصر پیچیده باشد، API می تواند به طور هوشمندانه در سند حرکت کند و محتوای متن را با دقت بازیابی کند. بنابراین، ویژگی‌های قدرتمند، دقت و سهولت یکپارچه‌سازی، آن را به انتخابی ایده‌آل برای استخراج داده‌های متنی ارزشمند از اسناد PDF در برنامه‌های NET خود تبدیل می‌کند.

اکنون، برای شروع با این ویژگی، اولین قدم اضافه کردن مرجع Cloud SDK در راه حل دات نت است. بنابراین، «Aspose.PDF-Cloud» را در NuGet packages manager جستجو کنید و روی دکمه «افزودن بسته» کلیک کنید. در مرحله دوم، از [داشبورد ابری] (https://dashboard.aspose.cloud/) بازدید کنید و اعتبار مشتری شخصی خود را دریافت کنید.

استخراج متن PDF با استفاده از C#.NET

در این بخش قصد داریم جزئیات استخراج متن از PDF را به صورت برنامه ای بررسی کنیم.

// برای نمونه های کامل و فایل های داده لطفا به ادامه مطلب بروید 
https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-dotnet

// دریافت اعتبار مشتری از https://dashboard.aspose.cloud/
string clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
string clientID = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";

// یک نمونه از PdfApi ایجاد کنید
PdfApi pdfApi = new PdfApi(clientSecret, clientID);

// نام فایل PDF را وارد کنید
String inputFile = "Binder1-1.pdf";
// محتوای فایل PDF را در نمونه جریان بخوانید
var sourceFile = System.IO.File.OpenRead(inputFile);

// فایل PDF را در فضای ذخیره سازی ابری آپلود کنید
pdfApi.UploadFile("inputPDF.pdf", sourceFile);

// مختصات X گوشه پایین - چپ
Double LLX = 500.0;
// Y - مختصات گوشه پایین سمت چپ.
Double LLY = 500.0;
// X - مختصات گوشه سمت راست بالا.
Double URX = 800.0;
// Y - مختصات گوشه سمت راست بالا.
Double URY = 800.0;

// برای استخراج متن از مختصات خاصی در سند PDF با API تماس بگیرید
TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);

// پیمایش از طریق بروز متن فردی
for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
    // نوشتن محتوای متنی در کنسول
    Console.WriteLine(response.TextOccurrences.List[counter].Text);
}
متن پی دی اف را استخراج کنید

پیش نمایش متن برگرفته از سند PDF.

در زیر جزئیات مربوط به قطعه کد ذکر شده در بالا آورده شده است.

PdfApi pdfApi = new PdfApi(clientSecret, clientID);

ابتدا یک نمونه از کلاس PdfApi ایجاد کنید که در آن اعتبار مشتری را به عنوان آرگومان ارسال می کنیم.

String inputFile = "Binder1-1.pdf";
var sourceFile = System.IO.File.OpenRead(inputFile);

محتوای فایل PDF ورودی را برای پخش جریانی بارگیری کنید.

pdfApi.UploadFile("inputPDF.pdf", sourceFile);

سند PDF را در فضای ذخیره سازی ابری آپلود کنید.

TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);

برای استخراج متن از فایل PDF در مختصات صفحه خاص، با API تماس بگیرید.

for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
    // write text content in console
    Console.WriteLine(response.TextOccurrences.List[counter].Text);
}

در لیستی که حاوی رخدادهای متن استخراج شده است، تکرار کنید و نمونه های متنی را در کنسول چاپ کنید.

تجزیه و تحلیل متن از PDF با استفاده از دستورات cURL

با استفاده از دستورات cURL در ترکیب با Aspose.PDF Cloud API، می‌توانید بدون زحمت محتوای متنی را از فایل‌های PDF میزبانی شده در فضای ذخیره‌سازی ابری استخراج کنید. API از پارامترهای مختلفی برای سفارشی کردن فرآیند استخراج پشتیبانی می کند و به شما امکان می دهد مختصات و سایر گزینه ها را برای استخراج متن با دقت مشخص کنید.

اولین قدم با این رویکرد، تولید یک نشانه دسترسی JWT در حین اجرای دستور زیر است.

curl -v "https://api.aspose.cloud/connect/token" \
 -X POST \
 -d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
 -H "Content-Type: application/x-www-form-urlencoded" \
 -H "Accept: application/json"

هنگامی که توکن JWT تولید شد، لطفاً دستور زیر را اجرا کنید تا متن از سند PDF خارج شود.

curl -v "https://api.aspose.cloud/v3.0/pdf/{inputPDF}/text?splitRects=true&LLX=10&LLY=10&URX=800&URY=800" \
-X GET \
-H  "accept: application/json" \
-H  "authorization: Bearer {accessToken}" \
-o "extractedContent.txt"

«inputPDF» را با نام سند PDF که قبلاً در فضای ذخیره‌سازی ابری موجود است، و «accessToken» را با توکن JWT که در بالا ایجاد شده است جایگزین کنید.

نتیجه

در نتیجه، هم Aspose.PDF Cloud SDK برای دات نت و هم رویکرد دستوری cURL راه حل های کارآمد و قابل اعتمادی را برای استخراج متن از اسناد PDF ارائه می دهند. Aspose.PDF Cloud SDK for .NET یک API جامع و مناسب برای توسعه‌دهندگان با طیف گسترده‌ای از ویژگی‌ها ارائه می‌کند که آن را به انتخابی قدرتمند برای ادغام استخراج متن PDF در برنامه‌های NET تبدیل می‌کند. از سوی دیگر، رویکرد دستور cURL یک روش منعطف و مستقل از پلتفرم را برای تعامل با Aspose.PDF Cloud API ارائه می‌کند و آن را به گزینه‌ای عالی برای توسعه‌دهندگانی که در محیط‌ها و زبان‌های برنامه‌نویسی مختلف کار می‌کنند تبدیل می‌کند.

لینک های مفید

مقالات مرتبط

ما به شدت توصیه می کنیم از وبلاگ های زیر دیدن کنید: