ტექსტის ამოღება PDF-დან

ტექსტის ამოღება PDF-დან Java-ში

ჩვენ ყველამ ვიცით, რომ PDF ფაილები არის ერთ-ერთი ყველაზე მნიშვნელოვანი და ფართოდ გამოყენებული ციფრული ფორმატი, რომელიც გამოიყენება დოკუმენტების საიმედოდ წარდგენისა და გაცვლისთვის, პროგრამული უზრუნველყოფის, აპარატურის ან ოპერაციული სისტემისგან დამოუკიდებლად. თუმცა, ზოგიერთ სცენარში, ჩვენ შეიძლება დაინტერესებული ვიყოთ ამონაწერი დიდი PDF ფაილებიდან. ან, შეიძლება გვქონდეს მოთხოვნა, შეინახოთ PDF ტექსტში ონლაინ. ასე რომ, ამ სტატიაში ჩვენ ვაპირებთ შევისწავლოთ დეტალები, თუ როგორ უნდა განვავითაროთ PDF-ზე ტექსტის გადამყვანი Java REST API-ის გამოყენებით.

PDF გენერატორი API

მიიღეთ ბერკეტი PDF დოკუმენტების გენერირებისთვის შაბლონების გამოყენებით ან ნულიდან ჩვენი REST API-ს გამოყენებით. ამავდროულად, API ასევე საშუალებას გაძლევთ დაარედაქტიროთ და გარდაქმნათ PDF ფაილები სხვა მხარდაჭერილ ფორმატებში. თქვენ ასევე შეგიძლიათ ისარგებლოთ PDF-დან ტექსტის ამოღებით, PDF ფაილების გაშიფვრით და გაერთიანებით Java Cloud SDK-ის გამოყენებით. ახლა, იმისათვის, რომ გამოვიყენოთ Aspose.PDF Cloud SDK Java-სთვის, ჩვენ უნდა დავამატოთ მისი მითითება ჩვენს Java აპლიკაციაში შემდეგი დეტალების ჩართვით pom.xml-ში (maven build ტიპის პროექტი).

<repositories> 
    <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>http://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-cloud-pdf</artifactId>
        <version>21.11.0</version>
        <scope>compile</scope>
    </dependency>
</dependencies>

ინსტალაციის შემდეგ, ჩვენ უნდა შევქმნათ უფასო ანგარიში Cloud Dashboard-ზე და მივიღოთ კლიენტის პერსონალიზებული სერთიფიკატები.

ტექსტის ამოღება PDF-დან ჯავის გამოყენებით

მოდით გამოვიკვლიოთ დეტალები PDF-დან ტექსტის ამოსაღებად Java cloud SDK-ის გამოყენებით. ამ მაგალითში ჩვენ ვაპირებთ გამოვიყენოთ შემდეგი შეყვანა PdfWithTable.pdf ფაილი.

pdf ტექსტში ოქრ

სურათი 1: - შეიყვანეთ ფაილი PDF-დან ტექსტში ამოღებისთვის.

pdf ტექსტში ოქრ

სურათი 2: - ამოიღეთ ტექსტი PDF გადახედვიდან

// დამატებითი მაგალითებისთვის, გთხოვთ, ეწვიოთ https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-java/tree/master/Examples/src/main/java/com/aspose/asposecloudpdf/examples

try
    {
    // მიიღეთ ClientID და ClientSecret https://dashboard.aspose.cloud/-დან
    String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
    String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
		    
    // შექმენით PdfApi-ს მაგალითი
    PdfApi pdfApi = new PdfApi(clientSecret,clientId);
    // შეყვანილი PDF დოკუმენტის სახელი
    String name = "PdfWithTable.pdf";
		        
    // წაიკითხეთ შეყვანილი PDF ფაილის შინაარსი
    File file = new File(name); 
    // ატვირთეთ PDF ღრუბლოვან საცავში
    pdfApi.uploadFile("input.pdf", file, null);
		        
    // ქვედა - მარცხენა კუთხის X-კოორდინატი
    Double LLX = 500.0;
    // Y - ქვედა მარცხენა კუთხის კოორდინატი.
    Double LLY = 500.0;
    // X - ზედა მარჯვენა კუთხის კოორდინატი.
    Double URX = 800.0;
    // Y - ზედა მარჯვენა კუთხის კოორდინატი.
    Double URY = 800.0;
			       
    // დარეკეთ API PDF-ის ტექსტად გადასაყვანად
    TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);    
		    
    // ტრავერსი ინდივიდუალური ტექსტის შემთხვევის მეშვეობით
    for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
    {
        // ტექსტის შინაარსის ჩაწერა კონსოლში
        System.out.println(response.getTextOccurrences().getList().get(counter).getText());
    }
		  
    System.out.println("Extract Text from PDF successful !");
    }catch(Exception ex)
    {
        System.out.println(ex);
    }

ახლა შევეცადოთ გავიგოთ ზემოთ მითითებული კოდის ნაწყვეტი:

PdfApi pdfApi = new PdfApi(clientSecret,clientId);

შექმენით PdfApi-ს ეგზემპლარი, პერსონალიზებული სერთიფიკატების არგუმენტად გადაცემისას.

File file = new File(name); 
pdfApi.uploadFile("input.pdf", file, null);

წაიკითხეთ შეყვანილი PDF ფაილი ობიექტის გამოყენებით და ატვირთეთ იგი ღრუბლოვან საცავში PdfAPi კლასის uploadFile(…) მეთოდის გამოყენებით. გთხოვთ გაითვალისწინოთ, რომ ფაილი აიტვირთება uploadFile მეთოდით გამოყენებული სახელით.

TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);    

ახლა მოვუწოდებთ getText(..) მეთოდს, სადაც მივუთითებთ შეყვანილი PDF ფაილის სახელს, მართკუთხა ზომებს გვერდზე, საიდანაც უნდა ამოვიტანოთ ტექსტური შინაარსი და დავაბრუნოთ ამოღებული შინაარსი TextRectsResponse ობიექტში.

response.getTextOccurrences().getList().get(counter).getText()

დაბოლოს, ამოღებული ტექსტის შინაარსის დასაბეჭდად, ჩვენ ვაპირებთ გავიმეოროთ ყველა TextOccurances და გამოვაჩინოთ ისინი კონსოლში.

PDF ტექსტში cURL ბრძანებების გამოყენებით

Java კოდის ფრაგმენტის გარდა, ჩვენ ასევე შეგვიძლია შევასრულოთ pdftotext ოპერაცია cURL ბრძანებების გამოყენებით. ახლა, ამ მიდგომის ერთ-ერთი წინაპირობაა JWT წვდომის ნიშნის გენერირება (კლიენტის სერთიფიკატებზე დაყრდნობით) შემდეგი ბრძანების გამოყენებით.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

JWT-ის გენერირების შემდეგ, გთხოვთ, შეასრულოთ შემდეგი ბრძანება, რომ ამოიღოთ ტექსტი PDF ფაილიდან, რომელიც უკვე ხელმისაწვდომია ღრუბლოვან საცავში.

curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>"

სწრაფი რჩევა

ვეძებთ PDF ტექსტის უფასო აპლიკაციას! გთხოვთ, სცადოთ ჩვენი [PDF Parser] (https://products.aspose.app/pdf/parser) გამოყენება.

დასკვნითი შენიშვნები

დასასრულს, ტექსტის ამოღება PDF ფაილებიდან Java-ს გამოყენებით შეიძლება იყოს მძლავრი გადაწყვეტა მათთვის, ვინც ეძებს მონაცემთა დამუშავებისა და ანალიზის საჭიროებების ავტომატიზაციას. ამ სახელმძღვანელოს დახმარებით, ახლა თქვენ გაქვთ მყარი საფუძველი, რომლის საფუძველზეც შეგიძლიათ შექმნათ თქვენი საკუთარი Java-ზე დაფუძნებული გადაწყვეტა PDF დოკუმენტებიდან ტექსტის ამოღებისთვის. თუ თქვენ ეძებთ ტექსტის ამოღებას მონაცემთა ანალიზისთვის, მანქანური სწავლისთვის ან სხვა მიზნისთვის, Java გთავაზობთ მოქნილ და საიმედო პლატფორმას თქვენი საჭიროებისთვის. ასე რომ, განაგრძეთ და გამოსცადეთ თქვენი ახლად შეძენილი უნარები!

თუ გაინტერესებთ API-ს მიერ შემოთავაზებული სხვა საინტერესო ფუნქციების შესწავლა, გთხოვთ, შეისწავლოთ პროდუქტის დოკუმენტაცია. და ბოლოს, თუ რაიმე პრობლემას წააწყდებით API-ს გამოყენებისას, ან გაქვთ რაიმე დაკავშირებული შეკითხვა, გთხოვთ, მოგერიდებათ დაგვიკავშირდეთ უფასო [პროდუქტის მხარდაჭერის ფორუმის] მეშვეობით 9.

დაკავშირებული სტატიები

გთხოვთ ეწვიოთ შემდეგ ბმულებს მეტი ინფორმაციისთვის: