სკანირებული PDF საძიებლად

სურათები მონაცემთა გაზიარების ერთ-ერთი განუყოფელი კომპონენტია და ზოგიერთი აპლიკაცია პირდაპირ გადმოსცემს წყაროს შინაარსს PDF ფორმატში. მაგრამ ეს მოხერხებულობა ზრდის ღირებულებას, როდესაც დოკუმენტში გარკვეული შინაარსის ძიება გვიწევს. ამ სცენარში, თქვენ უნდა გაიაროთ მთელი დოკუმენტი ხელით, რათა იპოვოთ შესაბამისი ინფორმაცია. ამიტომ რეკომენდირებული მიდგომა ყოველთვის არის ფაილების გენერირება, რომლებიც საძიებო და მარტივი სამართავია. თუმცა, თუ თქვენ მიიღეთ PDF ფაილები, სადაც წყაროზე ვერ აკონტროლებთ დოკუმენტების ფორმატს, ამიტომ მონაცემთა არქივისა და ინდექსაციისთვის, ჩვენ გვჭირდება ასეთი დოკუმენტების გადაყვანა საძიებო ფორმატში. ამ სტატიაში ჩვენ განვიხილავთ დეტალებს, თუ როგორ უნდა შეასრულოთ ონლაინ PDF OCR და გადაიყვანოთ დასკანირებული / გამოსახულების PDF ფაილები საძიებო / ტექსტურ PDF დოკუმენტებად.

PDF დამუშავების API

Aspose.PDF Cloud არის ჩვენი ჯილდოს მფლობელი REST არქიტექტურაზე დაფუძნებული PDF შექმნისა და მანიპულაციის API. იგივე API-ს გამოყენებით შეგიძლიათ შეასრულოთ სხვადასხვა ოპერაციები, როგორიცაა EPUB-ის გადაქცევა PDF-ში, HTML-ის გადაქცევა PDF-ზე, Convert XPS to PDF, Convert DOC and Doc X to PDF, Convert XPS to PDF, მაშასადამე, შეგიძლიათ ჩასვათ სურათები ღრუბელში და ა.შ. წვდომა ნებისმიერი პლატფორმიდან.

PDF OCR cURL ბრძანების გამოყენებით

cURL ბრძანებები არის Aspose.PDF Cloud-ზე წვდომის მარტივი გზა ბრძანების ხაზის ტერმინალის მეშვეობით. მაგრამ API-ებზე წვდომამდე, ჯერ უნდა ეწვიოთ Aspose.Cloud dashboard და თუ გაქვთ GitHub ან Google ანგარიში, უბრალოდ დარეგისტრირდით. წინააღმდეგ შემთხვევაში, დააწკაპუნეთ ღილაკზე Create a new Account და მიაწოდეთ საჭირო ინფორმაცია. ახლა შედით საინფორმაციო დაფაზე რწმუნებათა სიგელების გამოყენებით და გააფართოვეთ აპლიკაციების განყოფილება დაფიდან და გადადით ქვემოთ კლიენტის სერთიფიკატების განყოფილებისკენ, რომ ნახოთ კლიენტის ID და კლიენტის საიდუმლო დეტალები.

ახლა შემდეგი ნაბიჯი არის JSON Web Token-ის (JWT) გენერირება ისე, რომ API-ები ხელმისაწვდომი იყოს ბრძანების სტრიქონიდან.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=a41d01ef-dfd5-4e02-ad29-bd85fe41e3e4&client_secret=d87269aade6a46cdc295b711e26809af" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

მას შემდეგ რაც გვექნება JWT ჟეტონი, შეასრულეთ შემდეგი cURL ბრძანება ბრძანების ხაზის ტერმინალში.

curl -X PUT "https://api.aspose.cloud/v3.0/pdf/ocrscan.pdf/ocr?lang=eng" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>"

გადაიყვანეთ სკანირებული PDF საძიებელად Java-ში

ჩვენი Java პროგრამისტების გასაადვილებლად, Aspose.PDF Cloud-ის გარშემო შეფუთვა შეიქმნა ისე, რომ Cloud API-ის ყველა მახასიათებლის წვდომა მარტივად იყოს შესაძლებელი Java-ში. ანალოგიურად, იმისათვის, რომ შევასრულოთ OCR ოპერაცია დასკანირებულ PDF-ზე, უნდა გამოვიყენოთ Aspose.PDF Cloud SDK for Java.

ასე რომ, პირველი ნაბიჯი არის SKD-ის სისტემაზე დაყენება. Cloud SDK ხელმისაწვდომია ჩამოსატვირთად Maven და GitHub-ზე. ახლა დაამატეთ შემდეგი დეტალები თქვენს pom.xml ფაილში, რომ ჩამოტვირთოთ და გამოიყენოთ Aspose.Pdf.jar თქვენს Maven build პროექტში.

<repositories>
 <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>https://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>
<dependencies>
 <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-pdf-cloud</artifactId>
        <version>21.1.0</version>
        <scope>compile</scope>
    </dependency>
 </dependencies>

დამატებითი ინფორმაციისთვის ეწვიეთ How to install Aspose.Cloud SDKs.

ქვემოთ მოცემული ნაბიჯები განსაზღვრავს COR ოპერაციის პროცესს გამოსახულების PDF ფაილზე.

  • პირველი ნაბიჯი არის PdfApi ობიექტის შექმნა ClientID და Client საიდუმლო დეტალების გადაცემისას (ხელმისაწვდომია Aspose.Cloud dashboard-ზე).
  • შექმენით ფაილის ინსტანცია და გადაიტანეთ სურათის ფაილის მდებარეობა არგუმენტად.
  • გამოიძახეთ uploadFile(…) მეთოდი და გადაიტანეთ PDF დოკუმენტი და ფაილის ინსტანცია არგუმენტებად.
  • შემდეგი ნაბიჯი არის სტრიქონის ინსტანციის შექმნა და მისი მნიშვნელობა ენის კოდის დაყენება, რომელსაც შეიცავს წყარო ფაილი, ანუ “rus,eng”.
  • დაბოლოს, გამოიძახეთ PdfApi-ის putSearchableDocument(…) მეთოდი და გადაიტანეთ შეყვანილი PDF ფაილის სახელი და გადაიტანეთ ენის კოდი არგუმენტებად.

ენები OCR ძრავისთვის. მხარდაჭერილი მნიშვნელობები: eng, ara, bel, ben, bul, ces, dan, deu, ell, fin, fra, heb, hin, ind, isl, ita, jpn, kor, nld, nor, pol, por, ron, rus, spa, swe, tha, tur, ukr, vie, eng orrus, მათი კომბინაცია.

// მიიღეთ ClientID და ClientSecret https://dashboard.aspose.cloud/-დან
String clientId = "a41d01ef-dfd5-4e02-ad29-bd85fe41e3e4";
String clientSecret = "d87269aade6a46cdc295b711e26809af";
				
// createPdfApi მაგალითი
PdfApi pdfApi = new PdfApi(clientSecret,clientId);
				
// PDF დოკუმენტის შეყვანა
String name = "ocrscan.pdf";	        
			    
// ჩატვირთეთ ფაილი ადგილობრივი სისტემიდან
File file = new File("/Users/nayyershahbaz/Downloads/" + name);
// ატვირთეთ ფაილი ღრუბლოვან საცავში
FilesUploadResult uploadResponse = pdfApi.uploadFile(name, file, null);
				
// გამოსახულების ფაილში გამოყენებული ენები
String lang = "rus,eng";
				
//  შეასრულეთ OCR გამოსახულების PDF დოკუმენტზე
AsposeResponse response = pdfApi.putSearchableDocument(name, null, null, lang);
assertEquals(200, (int)response.getCode());
OCR შედეგის გადახედვა

სურათი 1: - OCR გამომავალი გადახედვა.

ზემოთ მოყვანილ მაგალითში გამოყენებული PDF ფაილების ნიმუში შეგიძლიათ ჩამოტვირთოთ შემდეგი ბმულებიდან:

დასკვნა

ამ სტატიაში ჩვენ ვისწავლეთ რამდენიმე მარტივი ნაბიჯი, თუ როგორ უნდა შეასრულოთ PDF OCR ოპერაცია და გადაიყვანოთ დასკანირებული PDF დოკუმენტი საძიებლად PDF დოკუმენტად. OCR ოპერაციების გარდა, SDK საკმაოდ მძლავრია და შეუძლია სხვადასხვა ოპერაციების შესრულება. დამატებითი ინფორმაციისთვის ეწვიეთ Aspose.PDF Cloud Features.