همه ما میدانیم که فایلهای PDF یکی از مهمترین و پرکاربردترین فرمتهای دیجیتالی هستند که برای ارائه و تبادل اسناد به طور قابل اعتماد، مستقل از نرمافزار، سختافزار یا سیستم عامل استفاده میشوند. با این حال، در برخی از حالات، ما ممکن است علاقه مند به دریافت گزیده ای از فایل های PDF بزرگ باشیم. یا ممکن است نیاز به ذخیره PDF در متن آنلاین داشته باشیم. بنابراین در این مقاله، ما قصد داریم جزئیات نحوه توسعه تبدیل PDF به متن با استفاده از Java REST API را بررسی کنیم.
PDF Generator API
اهرمی را برای تولید اسناد PDF با استفاده از الگوها یا از ابتدا با استفاده از REST API ما دریافت کنید. در عین حال، API همچنین شما را قادر میسازد تا فایلهای PDF را به دیگر [فرمتهای پشتیبانی شده6 ویرایش و تبدیل کنید. همچنین می توانید از مزایای استخراج متن از PDF، رمزگشایی و ادغام فایل های PDF با استفاده از Java Cloud SDK استفاده کنید. اکنون، برای استفاده از Aspose.PDF Cloud SDK برای جاوا، باید مرجع آن را با گنجاندن جزئیات زیر در pom.xml (پروژه نوع ساخت maven) در برنامه جاوا خود اضافه کنیم.
<repositories>
<repository>
<id>aspose-cloud</id>
<name>artifact.aspose-cloud-releases</name>
<url>https://artifact.aspose.cloud/repo</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-cloud-pdf</artifactId>
<version>21.11.0</version>
<scope>compile</scope>
</dependency>
</dependencies>
پس از نصب، باید یک حساب کاربری رایگان روی Cloud Dashboard ایجاد کنیم و اعتبار مشتری شخصی سازی شده را دریافت کنیم.
استخراج متن از PDF با استفاده از جاوا
بیایید جزئیات را برای استخراج متن از PDF با استفاده از Java cloud SDK بررسی کنیم. در این مثال، ما قصد داریم از ورودی زیر [PdfWithTable.pdf] (https://raw.githubusercontent.com/aspose-pdf-cloud/aspose-pdf-cloud-java/master/testData/PdfWithTable.pdf) استفاده کنیم. فایل.
// برای مثالهای بیشتر، لطفاً به https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-java/tree/master/Examples/src/main/java/com/aspose/asposecloudpdf/examples مراجعه کنید
try
{
// ClientID و ClientSecret را از https://dashboard.aspose.cloud/ دریافت کنید
String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
// یک نمونه از PdfApi ایجاد کنید
PdfApi pdfApi = new PdfApi(clientSecret,clientId);
// نام سند PDF ورودی
String name = "PdfWithTable.pdf";
// محتوای فایل PDF ورودی را بخوانید
File file = new File(name);
// PDF را در فضای ذخیره سازی ابری آپلود کنید
pdfApi.uploadFile("input.pdf", file, null);
// مختصات X گوشه پایین - چپ
Double LLX = 500.0;
// Y - مختصات گوشه پایین سمت چپ.
Double LLY = 500.0;
// X - مختصات گوشه بالا سمت راست.
Double URX = 800.0;
// Y - مختصات گوشه سمت راست بالا.
Double URY = 800.0;
// برای تبدیل PDF به متن با API تماس بگیرید
TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);
// پیمایش از طریق وقوع متن فردی
for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
{
// نوشتن محتوای متنی در کنسول
System.out.println(response.getTextOccurrences().getList().get(counter).getText());
}
System.out.println("Extract Text from PDF successful !");
}catch(Exception ex)
{
System.out.println(ex);
}
اکنون بیایید سعی کنیم قطعه کد مشخص شده در بالا را درک کنیم:
PdfApi pdfApi = new PdfApi(clientSecret,clientId);
در حین انتقال اعتبار شخصی سازی شده به عنوان آرگومان، یک نمونه از PdfApi ایجاد کنید.
File file = new File(name);
pdfApi.uploadFile("input.pdf", file, null);
PDF ورودی را با استفاده از شی File بخوانید و با استفاده از روش uploadFile(…) کلاس PdfAPi در فضای ذخیره سازی ابری آپلود کنید. لطفا توجه داشته باشید که فایل با نام استفاده شده در روش uploadFile آپلود می شود.
TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);
اکنون متد getText(..) را فراخوانی می کنیم که در آن نام فایل PDF ورودی، ابعاد مستطیلی را در صفحه مشخص می کنیم که باید محتوای متنی را از آن استخراج کنیم و محتوای استخراج شده را به شی TextRectsResponse برگردانیم.
response.getTextOccurrences().getList().get(counter).getText()
در نهایت، برای چاپ محتوای متنی استخراجشده، میخواهیم تمام TextOccuranceها را تکرار کرده و در کنسول نمایش دهیم.
PDF به متن با استفاده از دستورات cURL
به غیر از قطعه کد جاوا، ما همچنین می توانیم عملیات pdftotext را با استفاده از دستورات cURL انجام دهیم. حال، یکی از پیش نیازهای این رویکرد، تولید یک نشانه دسترسی JWT (بر اساس اعتبار مشتری) با استفاده از دستور زیر است.
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
هنگامی که JWT تولید شد، لطفاً دستور زیر را برای استخراج متن از فایل PDF که قبلاً در فضای ذخیره سازی ابری موجود است، اجرا کنید.
curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H "accept: application/json" \
-H "authorization: Bearer <JWT Token>"
اشاره کوتاه
به دنبال برنامه رایگان PDF به متن هستید! لطفاً از [PDF Parser] (https://products.aspose.app/pdf/parser) ما استفاده کنید.
نتایجی که اظهار شده
در پایان، استخراج متن از فایلهای PDF با استفاده از جاوا میتواند یک راهحل قدرتمند برای کسانی باشد که به دنبال خودکارسازی نیازهای پردازش و تجزیه و تحلیل دادههای خود هستند. با کمک این راهنما، اکنون پایه محکمی برای ایجاد دارید و می توانید به راحتی راه حل مبتنی بر جاوا خود را برای استخراج متن از اسناد PDF پیاده سازی کنید. چه به دنبال استخراج متن برای تجزیه و تحلیل داده، یادگیری ماشین یا هر هدف دیگری باشید، جاوا یک پلت فرم قابل انعطاف و قابل اعتماد برای نیازهای شما فراهم می کند. پس پیش بروید و مهارت های تازه کسب شده خود را امتحان کنید!
اگر علاقه مند به کشف سایر ویژگی های هیجان انگیز ارائه شده توسط API هستید، لطفاً مستندات محصول را بررسی کنید. در نهایت، اگر در هنگام استفاده از API با مشکلی مواجه شدید، یا سؤال مرتبطی دارید، لطفاً از طریق [تالار گفتمان پشتیبانی محصول] رایگان با ما تماس بگیرید.
مقالات مرتبط
لطفا برای کسب اطلاعات بیشتر به لینک های زیر مراجعه کنید: