فایل‌های PDF(فرمت سند قابل حمل) از جمله قابل اعتمادترین و پرکاربردترین فرمت‌ها برای به اشتراک‌گذاری مستندات در پلتفرم‌های مختلف هستند—که از ثبات در طرح و ظاهر بدون توجه به نرم‌افزار یا دستگاه اطمینان حاصل می‌کند. با این حال، موقعیت‌هایی وجود دارد که توسعه‌دهندگان نیاز دارند متن را به‌طور برنامه‌نویسی از فایل‌های PDF استخراج کنند، مانند تحلیل محتوا، فهرست‌سازی مستندات، یا تبدیل PDF‌ها به فرمت‌های متنی قابل ویرایش.

در این مقاله، ما به بررسی چگونگی استخراج متن از فایل‌های PDF و ساخت یک مبدل PDF به متن با استفاده از API REST .NET خواهیم پرداخت و استخراج متن بدون درز و خودکار را از طریق فراخوانی‌های API REST امکان‌پذیر خواهیم کرد.

API پردازش PDF

قدرت Aspose.PDF Cloud SDK for .NET را برای استخراج متن از فایل‌های PDF به‌طور مؤثر به کار گیرید. علاوه بر استخراج متن، این SDK به شما اجازه می‌دهد تا اسناد PDF را از ابتدا یا قالب‌ها ایجاد کنید، PDFهای موجود را ویرایش کنید و آن‌ها را به فرمت‌های دیگر تبدیل کنید. می‌توانید کارهایی مانند رمزگشایی، ادغام و دستکاری فایل‌های PDF را مستقیماً از طریق API REST .NET انجام دهید.

حالا برای شروع، ما نیاز داریم SDK را در پروژه .NET خود نصب کنیم.

NuGet\Install-Package Aspose.Pdf-Cloud -Version 25.9.0

ما همچنین نیاز به ایجاد یک حساب کاربری رایگان در Cloud Dashboard و دریافت اعتبارنامه‌های شخصی‌سازی‌شده مشتری خود داریم.

عملیات تبدیل PDF به متن در C#

لطفاً مراحل زیر را برای استخراج متن از فایل PDF با استفاده از C# .NET دنبال کنید.

PdfApi pdfApi = new PdfApi(clientSecret, clientID);

یک شی از کلاس PdfApi ایجاد کنید که در آن اعتبارنامه‌های مشتری که در بالا به دست آمده‌اند به عنوان آرگومان‌ها منتقل شوند.

String inputFile = "sourceFile.pdf";
var sourceFile = System.IO.File.OpenRead(inputFile);
pdfApi.UploadFile("sourceFile.pdf", sourceFile);

ورودی PDF را از درایو محلی بخوانید و با استفاده از روش UploadFile(...) به فضای ذخیره سازی ابری بارگذاری کنید.

TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);

ما نیاز داریم منطقه را در فایل PDF مشخص کنیم که از آنجا می‌خواهیم محتوای متنی را با استفاده از روش GetText(...) استخراج کنیم.

for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
    // write text content in console
    Console.WriteLine(response.TextOccurrences.List[counter].Text);
}

پس از استخراج محتوای متنی، یا می‌توانیم آن را در درایو محلی ذخیره کنیم یا در کنسول چاپ کنیم.

// برای مثال‌های بیشتر، لطفاً به https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-dotnet مراجعه کنید.

// از https://dashboard.aspose.cloud/ اعتبارنامه‌های مشتری را دریافت کنید.
string clientSecret = "XXXXXXXXX";
string clientID = "XXXXXX-XXXXXXX-be35-ff5c3a6aa4a2";

// یک شیء از PdfApi ایجاد کنید در حالی که اعتبارنامه های کلاینت را به عنوان آرگومان ها منتقل می کنید.
PdfApi pdfApi = new PdfApi(clientSecret, clientID);

// Input PDF file name
String inputFile = "input.pdf";
// فایل PDF را به نمونه جریان بارگذاری کنید
var sourceFile = OpenRead(inputFile);

// فایل PDF را به فضای ذخیره‌سازی ابری بارگذاری کنید
pdfApi.UploadFile("inputPDF.pdf", sourceFile);

// مختصات X گوشه پایین - چپ
Double LLX = 200.0;
// Y - مختصات گوشه پایین چپ.
Double LLY = 200.0;
// شمارش X گوشه‌ی بالای سمت راست.
Double URX = 600.0;
// Y - مختصات گوشه بالایی سمت راست.
Double URY = 650.0;

// API را برای استخراج متن از مختصات مشخص شده فراخوانی کنید.
TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);

// حالا در هر بروز متن تکرار کنید و در کنسول چاپ کنید
// به طورalternatively، ما همچنین می‌توانیم خروجی را به طور مستقیم در فایل .txt ذخیره کنیم.
for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
    // write text content in console
    Console.WriteLine(response.TextOccurrences.List[counter].Text);
}

متن را از PDF با استفاده از cURL استخراج کنید

علاوه بر استفاده از تکه‌های کد .NET یا Java، شما می‌توانید متن را از فایل‌های PDF با استفاده از Aspose.PDF Cloud از طریق دستورات cURL استخراج کنید. بنابراین در این رویکرد، پیش‌نیازها شامل ایجاد یک توکن دسترسی JWT (بر اساس اعتبارنامه‌های مشتری شما) است که می‌تواند با استفاده از فرمان زیر به دست آید.

مرحله 1. - به دست آوردن توکن JWTAccess:

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=XXXXX-XXXXX-XXXXXX-ff5c3a6aa4a2&client_secret=XXXXXXXXXXXX" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

مرحله ۱. - استخراج متن از فایل PDF:

curl -v "https://api.aspose.cloud/v3.0/pdf/{inputPDF}/text?splitRects=true&LLX=10&LLY=10&URX=800&URY=800" \
-X GET \
-H  "accept: application/json" \
-H  "authorization: Bearer {Access_Token}" \
-o "extractedContent.txt"
  • پس از اینکه دستور با موفقیت اجرا شد، متن از منطقه مستطیلی مشخص شده به فایل متنی استخراج می‌شود.

برنامه رایگان تجزیه‌گر PDF

اگر در حال بررسی قابلیت‌های API هستید بدون نیاز به کدنویسی یا دستورات cURL، سپس از برنامه [Free PDF Parser] ما که بر اساس .NET REST APIs ساخته شده است، استفاده کنید.

اپلیکیشن تجزیه کننده PDF

نظرات پایانی

در این مقاله، ما جزئیات را درباره چگونگی یکپارچه‌سازی Aspose.PDF Cloud SDK برای .NET در پروژه .NET خود برای اهداف استخراج متن یاد گرفته‌ایم و همزمان گزینه استفاده از دستورات cURL را برای انجام استخراج متن PDF از طریق رابط خط فرمان بررسی کرده‌ایم. بنابراین، فرقی نمی‌کند هدف شما تحلیل داده، یادگیری ماشین یا مقاصد اتوماسیون دیگر باشد، SDK به شما ابزارهای قابل اعتمادی برای مدیریت محتوای PDF به طور مؤثر ارائه می‌دهد. این مهارت‌ها را به کار بگیرید و مدیریت PDF خود را مانند یک حرفه‌ای بهینه کنید!

مطالب خواندنی

مقالات مرتبط

ما همچنین پیشنهاد می‌کنیم که به لینک‌های زیر مراجعه کنید تا بیشتر درباره‌ی موارد زیر بیاموزید: