متن را از PDF استخراج کنید

استخراج متن از PDF در جاوا

همه ما می‌دانیم که فایل‌های PDF یکی از مهم‌ترین و پرکاربردترین فرمت‌های دیجیتالی هستند که برای ارائه و تبادل اسناد به طور قابل اعتماد، مستقل از نرم‌افزار، سخت‌افزار یا سیستم عامل استفاده می‌شوند. با این حال، در برخی از حالات، ما ممکن است علاقه مند به دریافت گزیده ای از فایل های PDF بزرگ باشیم. یا ممکن است نیاز به ذخیره PDF در متن آنلاین داشته باشیم. بنابراین در این مقاله، ما قصد داریم جزئیات نحوه توسعه تبدیل PDF به متن با استفاده از Java REST API را بررسی کنیم.

PDF Generator API

اهرمی را برای تولید اسناد PDF با استفاده از الگوها یا از ابتدا با استفاده از REST API ما دریافت کنید. در عین حال، API همچنین شما را قادر می‌سازد تا فایل‌های PDF را به دیگر [فرمت‌های پشتیبانی شده6 ویرایش و تبدیل کنید. همچنین می توانید از مزایای استخراج متن از PDF، رمزگشایی و ادغام فایل های PDF با استفاده از Java Cloud SDK استفاده کنید. اکنون، برای استفاده از Aspose.PDF Cloud SDK برای جاوا، باید مرجع آن را با گنجاندن جزئیات زیر در pom.xml (پروژه نوع ساخت maven) در برنامه جاوا خود اضافه کنیم.

<repositories> 
    <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>http://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-cloud-pdf</artifactId>
        <version>21.11.0</version>
        <scope>compile</scope>
    </dependency>
</dependencies>

پس از نصب، باید یک حساب کاربری رایگان روی Cloud Dashboard ایجاد کنیم و اعتبار مشتری شخصی سازی شده را دریافت کنیم.

استخراج متن از PDF با استفاده از جاوا

بیایید جزئیات را برای استخراج متن از PDF با استفاده از Java cloud SDK بررسی کنیم. در این مثال، ما قصد داریم از ورودی زیر [PdfWithTable.pdf] (https://raw.githubusercontent.com/aspose-pdf-cloud/aspose-pdf-cloud-java/master/testData/PdfWithTable.pdf) استفاده کنیم. فایل.

pdf به متن ocr

تصویر 1: - فایل ورودی برای استخراج PDF به متن.

pdf به متن ocr

تصویر 2: - استخراج متن از پیش نمایش PDF

// برای مثال‌های بیشتر، لطفاً به https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-java/tree/master/Examples/src/main/java/com/aspose/asposecloudpdf/examples مراجعه کنید

try
    {
    // ClientID و ClientSecret را از https://dashboard.aspose.cloud/ دریافت کنید
    String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
    String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
		    
    // یک نمونه از PdfApi ایجاد کنید
    PdfApi pdfApi = new PdfApi(clientSecret,clientId);
    // نام سند PDF ورودی
    String name = "PdfWithTable.pdf";
		        
    // محتوای فایل PDF ورودی را بخوانید
    File file = new File(name); 
    // PDF را در فضای ذخیره سازی ابری آپلود کنید
    pdfApi.uploadFile("input.pdf", file, null);
		        
    // مختصات X گوشه پایین - چپ
    Double LLX = 500.0;
    // Y - مختصات گوشه پایین سمت چپ.
    Double LLY = 500.0;
    // X - مختصات گوشه بالا سمت راست.
    Double URX = 800.0;
    // Y - مختصات گوشه سمت راست بالا.
    Double URY = 800.0;
			       
    // برای تبدیل PDF به متن با API تماس بگیرید
    TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);    
		    
    // پیمایش از طریق وقوع متن فردی
    for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
    {
        // نوشتن محتوای متنی در کنسول
        System.out.println(response.getTextOccurrences().getList().get(counter).getText());
    }
		  
    System.out.println("Extract Text from PDF successful !");
    }catch(Exception ex)
    {
        System.out.println(ex);
    }

اکنون بیایید سعی کنیم قطعه کد مشخص شده در بالا را درک کنیم:

PdfApi pdfApi = new PdfApi(clientSecret,clientId);

در حین انتقال اعتبار شخصی سازی شده به عنوان آرگومان، یک نمونه از PdfApi ایجاد کنید.

File file = new File(name); 
pdfApi.uploadFile("input.pdf", file, null);

PDF ورودی را با استفاده از شی File بخوانید و با استفاده از روش uploadFile(…) کلاس PdfAPi در فضای ذخیره سازی ابری آپلود کنید. لطفا توجه داشته باشید که فایل با نام استفاده شده در روش uploadFile آپلود می شود.

TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);    

اکنون متد getText(..) را فراخوانی می کنیم که در آن نام فایل PDF ورودی، ابعاد مستطیلی را در صفحه مشخص می کنیم که باید محتوای متنی را از آن استخراج کنیم و محتوای استخراج شده را به شی TextRectsResponse برگردانیم.

response.getTextOccurrences().getList().get(counter).getText()

در نهایت، برای چاپ محتوای متنی استخراج‌شده، می‌خواهیم تمام TextOccurance‌ها را تکرار کرده و در کنسول نمایش دهیم.

PDF به متن با استفاده از دستورات cURL

به غیر از قطعه کد جاوا، ما همچنین می توانیم عملیات pdftotext را با استفاده از دستورات cURL انجام دهیم. حال، یکی از پیش نیازهای این رویکرد، تولید یک نشانه دسترسی JWT (بر اساس اعتبار مشتری) با استفاده از دستور زیر است.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

هنگامی که JWT تولید شد، لطفاً دستور زیر را برای استخراج متن از فایل PDF که قبلاً در فضای ذخیره سازی ابری موجود است، اجرا کنید.

curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>"

اشاره کوتاه

به دنبال برنامه رایگان PDF به متن هستید! لطفاً از [PDF Parser] (https://products.aspose.app/pdf/parser) ما استفاده کنید.

نتایجی که اظهار شده

در پایان، استخراج متن از فایل‌های PDF با استفاده از جاوا می‌تواند یک راه‌حل قدرتمند برای کسانی باشد که به دنبال خودکارسازی نیازهای پردازش و تجزیه و تحلیل داده‌های خود هستند. با کمک این راهنما، اکنون پایه محکمی برای ایجاد دارید و می توانید به راحتی راه حل مبتنی بر جاوا خود را برای استخراج متن از اسناد PDF پیاده سازی کنید. چه به دنبال استخراج متن برای تجزیه و تحلیل داده، یادگیری ماشین یا هر هدف دیگری باشید، جاوا یک پلت فرم قابل انعطاف و قابل اعتماد برای نیازهای شما فراهم می کند. پس پیش بروید و مهارت های تازه کسب شده خود را امتحان کنید!

اگر علاقه مند به کشف سایر ویژگی های هیجان انگیز ارائه شده توسط API هستید، لطفاً مستندات محصول را بررسی کنید. در نهایت، اگر در هنگام استفاده از API با مشکلی مواجه شدید، یا سؤال مرتبطی دارید، لطفاً از طریق [تالار گفتمان پشتیبانی محصول] رایگان با ما تماس بگیرید.

مقالات مرتبط

لطفا برای کسب اطلاعات بیشتر به لینک های زیر مراجعه کنید: