Hình ảnh PDF sang PDF có thể tìm kiếm

Chuyển đổi PDF hình ảnh sang PDF có thể tìm kiếm

Để lưu trữ lâu dài sách/tài liệu, một trong những cách tiếp cận nhanh nhất là quét chúng dưới dạng hình ảnh. Ngoài ra, trong trường hợp bạn cần giữ chúng dưới dạng sách nhỏ, tất cả hình ảnh có thể được kết hợp thành một tài liệu PDF hợp nhất. Tuy nhiên, nếu một tài liệu PDF bao gồm các hình ảnh, thì thật khó để sao chép/trích xuất bất kỳ thông tin văn bản nào để thao tác thêm. Vì vậy, trong bài viết này, chúng ta sẽ thảo luận chi tiết về cách OCR tệp PDF và chuyển đổi PDF không thể tìm kiếm thành PDF có thể tìm kiếm bằng SDK đám mây Java.

OCR PDF Java SDK

Để tạo, thao tác và chuyển đổi tệp PDF sang nhiều định dạng được hỗ trợ, chúng tôi đã phát triển Đám mây Aspose.PDF. Giờ đây, để triển khai OCR PDF Free trong ứng dụng Java, chúng ta cần thử sử dụng Aspose.PDF Cloud SDK for Java, một trình bao bọc xung quanh Java Cloud API. Bây giờ, bước đầu tiên trong việc sử dụng SDK là cài đặt nó. Vì vậy, vui lòng thêm các chi tiết sau vào tệp pom.xml của dự án kiểu xây dựng maven.

<repositories> 
    <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>http://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-pdf-cloud</artifactId>
        <version>21.11.0</version>
    </dependency>
</dependencies>

Sau khi tham chiếu JDK đã được thêm, vui lòng tạo một tài khoản miễn phí trên Aspose Cloud. Đăng nhập bằng tài khoản mới tạo và tra cứu/tạo Client ID và Client Secret tại Cloud Dashboard. Những chi tiết này được yêu cầu trong các phần tiếp theo.

Đã quét PDF thành PDF có thể tìm kiếm bằng Java

Phần này giải thích chi tiết về cách chuyển đổi PDF được quét thành PDF có thể tìm kiếm bằng cách sử dụng đoạn mã Java. Xin lưu ý rằng Java Cloud SDK hỗ trợ nhận dạng các ngôn ngữ sau: eng, ara, bel, ben, bul, ces, dan, deu, ell, fin, fra, heb, hin, ind, isl, ita, jpn, kor, nld , nor, pol, por, ron, rus, spa, swe, tha, tur, ukr, vie, chisim, chitra hoặc sự kết hợp của chúng, ví dụ eng,rus.

  • Bước đầu tiên là tạo một đối tượng PdfApi lấy các chi tiết bí mật của ClientID và Client làm đối số
  • Thứ hai, tạo một phiên bản Tệp để tải OCR PDF
  • Thứ ba, gọi phương thức uploadFile(…) để tải tệp PDF đầu vào lên bộ nhớ đám mây
  • Vì PDF hình ảnh của chúng tôi chứa văn bản tiếng Anh, vì vậy chúng tôi cần tạo một đối tượng chuỗi giữ giá trị “eng”
  • Cuối cùng, gọi phương thức putSearchableDocument(…) yêu cầu nhập PDF và mã ngôn ngữ làm đối số. PDF có thể tìm kiếm kết quả được lưu trữ trong cùng một bộ lưu trữ đám mây
try
    {
    // Nhận ClientID và ClientSecret từ https://dashboard.aspose.cloud/
    String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
    String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
	  
    // dụ tạoPdfApi
    PdfApi pdfApi = new PdfApi(clientSecret,clientId);
	    				
    // hình ảnh đầu vào tài liệu PDF
    String name = "ScannedPDF.pdf";	        
	    			    
    // Tải tệp từ hệ thống cục bộ
    File file = new File(name);
    // tải tệp lên bộ nhớ đám mây
    FilesUploadResult uploadResponse = pdfApi.uploadFile(name, file, null);
	    				
    // các ngôn ngữ được sử dụng trong hình ảnh PDF
    String lang = "eng";
	    				
    //  thực hiện OCR trên tài liệu PDF hình ảnh
    AsposeResponse response = pdfApi.putSearchableDocument(name, null, null, lang);
	    
    // in thông báo thành công
    System.out.println("OCR PDF successfull !");
    }catch(Exception ex)
    {
        System.out.println(ex.getMessage());
    }
Hình ảnh PDF sang PDF có thể tìm kiếm

Image1:- Bản xem trước PDF có thể tìm kiếm

Có thể tải xuống tệp PDF được quét được sử dụng trong ví dụ trên từ BusinessReport.pdf và tệp PDF có thể tìm kiếm kết quả từ Converted.pdf

OCR trực tuyến bằng các lệnh cURL

Các lệnh cURL là một trong những cách tiếp cận thuận tiện để truy cập API REST thông qua thiết bị đầu cuối dòng lệnh. Vì vậy, trong phần này, chúng ta sẽ sử dụng các lệnh cURL cho OCR trực tuyến. Bây giờ là điều kiện tiên quyết, trước tiên chúng ta cần tạo mã thông báo truy cập JWT (dựa trên thông tin đăng nhập của khách hàng) trong khi thực hiện lệnh sau.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Khi chúng tôi có mã thông báo JWT, vui lòng thực hiện lệnh sau để thực hiện OCR trực tuyến và chuyển đổi Image PDF thành tài liệu PDF có thể tìm kiếm. Tệp kết quả sau đó được lưu trữ trong bộ nhớ đám mây.

curl -v -X GET "https://api.aspose.cloud/v4.0/words/Resultant.docx?format=TIFF&outPath=converted.tiff" \
-H  "accept: application/octet-stream" \
-H  "Authorization: Bearer <JWT Token>"

Sự kết luận

Trong bài viết này, chúng tôi đã thảo luận về một số bước đơn giản nhưng tuyệt vời để chuyển đổi Image PDF sang PDF có thể tìm kiếm bằng Java Cloud SDK. Vì vậy, chúng tôi có một tùy chọn để sử dụng đoạn mã Java hoặc các lệnh cURL để thực hiện OCR PDF. Ngoài cách tiếp cận này, bạn có thể cân nhắc truy cập API trong trình duyệt web thông qua giao diện vênh vang. Hơn nữa, vì SDK của chúng tôi được xây dựng theo giấy phép MIT, nên mã nguồn hoàn chỉnh có thể được tải xuống từ GitHub. Trong trường hợp bạn gặp phải bất kỳ sự cố nào khi sử dụng API, vui lòng liên hệ với chúng tôi qua diễn đàn hỗ trợ sản phẩm.

Những bài viết liên quan

Chúng tôi thực sự khuyên bạn nên truy cập các liên kết sau để tìm hiểu thêm về: