فایلهای PDF(فرمت سند قابل حمل) از جمله قابل اعتمادترین و پرکاربردترین فرمتها برای به اشتراکگذاری مستندات در پلتفرمهای مختلف هستند—که از ثبات در طرح و ظاهر بدون توجه به نرمافزار یا دستگاه اطمینان حاصل میکند. با این حال، موقعیتهایی وجود دارد که توسعهدهندگان نیاز دارند متن را بهطور برنامهنویسی از فایلهای PDF استخراج کنند، مانند تحلیل محتوا، فهرستسازی مستندات، یا تبدیل PDFها به فرمتهای متنی قابل ویرایش.
در این مقاله، ما به بررسی چگونگی استخراج متن از فایلهای PDF و ساخت یک مبدل PDF به متن با استفاده از API REST .NET خواهیم پرداخت و استخراج متن بدون درز و خودکار را از طریق فراخوانیهای API REST امکانپذیر خواهیم کرد.
API پردازش PDF
قدرت Aspose.PDF Cloud SDK for .NET را برای استخراج متن از فایلهای PDF بهطور مؤثر به کار گیرید. علاوه بر استخراج متن، این SDK به شما اجازه میدهد تا اسناد PDF را از ابتدا یا قالبها ایجاد کنید، PDFهای موجود را ویرایش کنید و آنها را به فرمتهای دیگر تبدیل کنید. میتوانید کارهایی مانند رمزگشایی، ادغام و دستکاری فایلهای PDF را مستقیماً از طریق API REST .NET انجام دهید.
حالا برای شروع، ما نیاز داریم SDK را در پروژه .NET خود نصب کنیم.
NuGet\Install-Package Aspose.Pdf-Cloud -Version 25.9.0
ما همچنین نیاز به ایجاد یک حساب کاربری رایگان در Cloud Dashboard و دریافت اعتبارنامههای شخصیسازیشده مشتری خود داریم.
عملیات تبدیل PDF به متن در C#
لطفاً مراحل زیر را برای استخراج متن از فایل PDF با استفاده از C# .NET دنبال کنید.
PdfApi pdfApi = new PdfApi(clientSecret, clientID);
یک شی از کلاس PdfApi
ایجاد کنید که در آن اعتبارنامههای مشتری که در بالا به دست آمدهاند به عنوان آرگومانها منتقل شوند.
String inputFile = "sourceFile.pdf";
var sourceFile = System.IO.File.OpenRead(inputFile);
pdfApi.UploadFile("sourceFile.pdf", sourceFile);
ورودی PDF را از درایو محلی بخوانید و با استفاده از روش UploadFile(...)
به فضای ذخیره سازی ابری بارگذاری کنید.
TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);
ما نیاز داریم منطقه را در فایل PDF مشخص کنیم که از آنجا میخواهیم محتوای متنی را با استفاده از روش GetText(...)
استخراج کنیم.
for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
// write text content in console
Console.WriteLine(response.TextOccurrences.List[counter].Text);
}
پس از استخراج محتوای متنی، یا میتوانیم آن را در درایو محلی ذخیره کنیم یا در کنسول چاپ کنیم.
// برای مثالهای بیشتر، لطفاً به https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-dotnet مراجعه کنید.
// از https://dashboard.aspose.cloud/ اعتبارنامههای مشتری را دریافت کنید.
string clientSecret = "XXXXXXXXX";
string clientID = "XXXXXX-XXXXXXX-be35-ff5c3a6aa4a2";
// یک شیء از PdfApi ایجاد کنید در حالی که اعتبارنامه های کلاینت را به عنوان آرگومان ها منتقل می کنید.
PdfApi pdfApi = new PdfApi(clientSecret, clientID);
// Input PDF file name
String inputFile = "input.pdf";
// فایل PDF را به نمونه جریان بارگذاری کنید
var sourceFile = OpenRead(inputFile);
// فایل PDF را به فضای ذخیرهسازی ابری بارگذاری کنید
pdfApi.UploadFile("inputPDF.pdf", sourceFile);
// مختصات X گوشه پایین - چپ
Double LLX = 200.0;
// Y - مختصات گوشه پایین چپ.
Double LLY = 200.0;
// شمارش X گوشهی بالای سمت راست.
Double URX = 600.0;
// Y - مختصات گوشه بالایی سمت راست.
Double URY = 650.0;
// API را برای استخراج متن از مختصات مشخص شده فراخوانی کنید.
TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);
// حالا در هر بروز متن تکرار کنید و در کنسول چاپ کنید
// به طورalternatively، ما همچنین میتوانیم خروجی را به طور مستقیم در فایل .txt ذخیره کنیم.
for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
// write text content in console
Console.WriteLine(response.TextOccurrences.List[counter].Text);
}
متن را از PDF با استفاده از cURL استخراج کنید
علاوه بر استفاده از تکههای کد .NET یا Java، شما میتوانید متن را از فایلهای PDF با استفاده از Aspose.PDF Cloud از طریق دستورات cURL استخراج کنید. بنابراین در این رویکرد، پیشنیازها شامل ایجاد یک توکن دسترسی JWT (بر اساس اعتبارنامههای مشتری شما) است که میتواند با استفاده از فرمان زیر به دست آید.
مرحله 1. - به دست آوردن توکن JWTAccess:
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=XXXXX-XXXXX-XXXXXX-ff5c3a6aa4a2&client_secret=XXXXXXXXXXXX" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
مرحله ۱. - استخراج متن از فایل PDF:
curl -v "https://api.aspose.cloud/v3.0/pdf/{inputPDF}/text?splitRects=true&LLX=10&LLY=10&URX=800&URY=800" \
-X GET \
-H "accept: application/json" \
-H "authorization: Bearer {Access_Token}" \
-o "extractedContent.txt"
- پس از اینکه دستور با موفقیت اجرا شد، متن از منطقه مستطیلی مشخص شده به فایل متنی استخراج میشود.
برنامه رایگان تجزیهگر PDF
اگر در حال بررسی قابلیتهای API هستید بدون نیاز به کدنویسی یا دستورات cURL، سپس از برنامه [Free PDF Parser] ما که بر اساس .NET REST APIs ساخته شده است، استفاده کنید.

نظرات پایانی
در این مقاله، ما جزئیات را درباره چگونگی یکپارچهسازی Aspose.PDF Cloud SDK برای .NET در پروژه .NET خود برای اهداف استخراج متن یاد گرفتهایم و همزمان گزینه استفاده از دستورات cURL را برای انجام استخراج متن PDF از طریق رابط خط فرمان بررسی کردهایم. بنابراین، فرقی نمیکند هدف شما تحلیل داده، یادگیری ماشین یا مقاصد اتوماسیون دیگر باشد، SDK به شما ابزارهای قابل اعتمادی برای مدیریت محتوای PDF به طور مؤثر ارائه میدهد. این مهارتها را به کار بگیرید و مدیریت PDF خود را مانند یک حرفهای بهینه کنید!
مطالب خواندنی
مقالات مرتبط
ما همچنین پیشنهاد میکنیم که به لینکهای زیر مراجعه کنید تا بیشتر دربارهی موارد زیر بیاموزید: