PDF to TXT გადამყვანი

როგორ გადავიტანოთ PDF TXT-ში ჯავის გამოყენებით

PDF ფაილი ჩვეულებრივ შედგება ტექსტი, სურათი, სათაური, ანოტაციები და სხვა ელემენტები. და რადგან ეს ფორმატი ინახავს დოკუმენტის განლაგებას პლატფორმებზე (დესკტოპი / მობილური და ა.შ.), ამიტომ იგი ფართოდ გამოიყენება ინფორმაციის გასაზიარებლად ინტერნეტში. თუმცა, შეიძლება გვქონდეს მოთხოვნა PDF დოკუმენტის ტექსტური შინაარსის ამოღება შემდგომი დამუშავებისთვის. ამ სტატიაში ჩვენ განვიხილავთ დეტალებს, თუ როგორ უნდა ამოიღოთ ტექსტი PDF-დან Java Cloud SDK-ის გამოყენებით. ოპერაციის დასრულების შემდეგ, გამოსავალი ინახება TXT ფორმატში.

PDF to TXT კონვერტაციის API

Aspose.PDF Cloud SDK Java-სთვის არის ჩვენი ჯილდოს მფლობელი REST API გადაწყვეტა, რომელიც გთავაზობთ PDF-ის შექმნას, რედაქტირებას და კონვერტაციას JPG, XPS, HTML, DOCX და სხვა [მხარდაჭერილი ფორმატების] მრავალფეროვნებაში 12. ახლა pdf ტექსტის ამოცნობის შესაძლებლობების განსახორციელებლად Java აპლიკაციაში, გთხოვთ, დაამატოთ შემდეგი დეტალები maven build ტიპის პროექტის pom.xml-ში.

<repositories> 
    <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>http://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-pdf-cloud</artifactId>
        <version>21.11.0</version>
    </dependency>
</dependencies>

SDK ინსტალაციის შემდეგ, შემდეგი მნიშვნელოვანი ნაბიჯი არის უფასო ანგარიშის შექმნა Aspose Cloud-ზე. ამიტომ გთხოვთ შეხვიდეთ ახლად შექმნილი ანგარიშის გამოყენებით და მოძებნეთ/შექმენით კლიენტის ID და კლიენტის საიდუმლო Cloud Dashboard-ზე. ეს დეტალები საჭიროა მომდევნო განყოფილებებში.

PDF ტექსტში ჯავაში

გთხოვთ, მიჰყვეთ ქვემოთ მოცემულ ნაბიჯებს, რათა განახორციელოთ PDF-ზე ტექსტის კონვერტაცია Java Cloud SDK-ის გამოყენებით. ასე რომ, წარმატებული კონვერტაციის შემდეგ, შედეგად მიღებული TXT ფაილი ინახება ღრუბლოვან საცავში.

  • ჯერ უნდა შევქმნათ PdfApi ობიექტი და არგუმენტებად მივაწოდოთ ClientID და Client საიდუმლო
  • მეორეც, ჩატვირთეთ შეყვანილი PDF ფაილი File ინსტანციის გამოყენებით
  • ატვირთეთ შეყვანილი PDF ღრუბლოვან საცავში uploadFile(…) მეთოდის გამოყენებით
  • შექმენით მთელი რიცხვი ცვლადი, რომელიც განსაზღვრავს PDF-ის გვერდის ნომერს ტექსტის ამოსაღებად და ორმაგი ინსტანციები, რომლებიც მიუთითებს გვერდის მართკუთხა რეგიონზე, საიდანაც უნდა ამოვიტანოთ ტექსტური შინაარსი
  • ბოლოს გამოიძახეთ getPageText(…) მეთოდი ტექსტური შინაარსის მისაღებად შეყვანილი PDF-დან
try
    {
    // მიიღეთ ClientID და ClientSecret https://dashboard.aspose.cloud/-დან
    String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
    String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
	  
    // შექმენით PdfApi-ს მაგალითი
    PdfApi pdfApi = new PdfApi(clientSecret,clientId);

    // შეყვანილი PDF დოკუმენტის სახელი
    String inputFile = "marketing.pdf";

    // წაიკითხეთ შეყვანილი PDF ფაილის შინაარსი
    File file = new File("//Users//"+inputFile);
	    
    // ატვირთეთ PDF ღრუბლოვან საცავში
    pdfApi.uploadFile("input.pdf", file, null);

    // PDF-ის კონკრეტული გვერდი კონვერტაციისთვის
    int pageNumber =1;

    // ქვედა - მარცხენა კუთხის X-კოორდინატი
    Double LLX = 0.0;
    // Y - ქვედა მარცხენა კუთხის კოორდინატი.
    Double LLY = 0.0;
    // X - ზედა მარჯვენა კუთხის კოორდინატი.
    Double URX = 800.0;
    // Y - ზედა მარჯვენა კუთხის კოორდინატი.
    Double URY = 800.0;
	       
    // დარეკეთ API PDF-ის ტექსტად გადასაყვანად
    TextRectsResponse response = pdfApi.getPageText(inputFile, pageNumber, LLX, LLY, URX, URY, null, null, true, null, "default");	    
    
    // შედეგიანი TXT ფაილის მაგალითი
    FileWriter myWriter = new FileWriter("filename.txt");
  
    // ახლა გაიარეთ ტექსტის ცალკეული შემთხვევის დაბეჭდვის შედეგი კონსოლში
    for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
    {
        // ტექსტის შინაარსის ჩაწერა TXT ფაილში
	myWriter.write(response.getTextOccurrences().getList().get(counter).getText());
    }
  
    // დახურეთ TXT დამმუშავებელი
    myWriter.close();
    
    System.out.println("Text successfully extracted from PDF !");
    }catch(Exception ex)
    {
	      System.out.println(ex);
    }
PDF გადაიყვანეთ TXT-ში

სურათი 1: - PDF to TXT კონვერტაციის გადახედვა

ზემოთ მოცემულ მაგალითში გამოყენებული PDF ფაილის ნიმუშის ჩამოტვირთვა შესაძლებელია marketing.pdf და extracted.txt-დან.

ამოიღეთ ტექსტი PDF-დან cURL ბრძანებების გამოყენებით

REST API-ებზე წვდომა ადვილად შეიძლება cURL ბრძანებების საშუალებით, ამიტომ ამ განყოფილებაში ჩვენ ვაპირებთ გამოვიკვლიოთ ვარიანტი, თუ როგორ შეგვიძლია ტექსტური შინაარსის ამოღება PDF-დან cURL ბრძანებების გამოყენებით. ასე რომ, როგორც წინაპირობა, ჩვენ ჯერ უნდა შევქმნათ JWT წვდომის ნიშანი (კლიენტის სერთიფიკატებზე დაყრდნობით) შემდეგი ბრძანების შესრულებისას.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

მას შემდეგ რაც გვექნება JWT ჟეტონი, ჩვენ უნდა შევასრულოთ შემდეგი ბრძანება PDF დოკუმენტში ტექსტის ყველა შემთხვევის ამოსაღებად.

curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>"

დასკვნა

ამ სტატიაში აღწერილია დეტალები, თუ როგორ უნდა გადაიყვანოთ PDF TXT-ში Java Cloud SDK-ის გამოყენებით. ამავდროულად, ჩვენ ასევე გამოვიკვლიეთ PDF-დან ტექსტის ამოღების ვარიანტები cURL ბრძანებების გამოყენებით. ასე რომ, მრავალ PDF გვერდს შორის გადაადგილების მოქნილობით, ჩვენ ვიღებთ კონტროლს, თუ სად უნდა ამოიღოთ შინაარსი. ჩვენ გირჩევთ, შეისწავლოთ პროდუქტი დოკუმენტაცია, რათა გაიგოთ მეტი სხვა საინტერესო ფუნქციების შესახებ, რომლებსაც გთავაზობთ Java Cloud API. ასევე, რადგან ყველა ჩვენი Cloud SDK გამოქვეყნებულია MIT ლიცენზიით, ასე რომ თქვენ შეგიძლიათ განიხილოთ სრული წყაროს კოდის ჩამოტვირთვა GitHub-დან და შეცვალოთ იგი თქვენი მოთხოვნების შესაბამისად. ნებისმიერი პრობლემის შემთხვევაში, შეგიძლიათ მოგვმართოთ სწრაფი გადაწყვეტისთვის უფასო [პროდუქტის მხარდაჭერის ფორუმის] მეშვეობით 9.

დაკავშირებული სტატიები

გთხოვთ ეწვიოთ შემდეგ ბმულებს მეტი ინფორმაციისთვის: