이미지 PDF를 검색 가능한 PDF로

이미지 PDF를 검색 가능한 PDF로 변환

책/문서를 장기간 보관할 때 가장 빠른 방법 중 하나는 이미지로 스캔하는 것입니다. 또한 소책자로 보관해야 하는 경우 모든 이미지를 통합 PDF 문서로 결합할 수 있습니다. 그러나 PDF 문서가 이미지로 구성된 경우 추가 조작을 위해 텍스트 정보를 복사/추출하기가 정말 어렵습니다. 그래서 이 글에서는 PDF 파일을 OCR하는 방법과 Java 클라우드 SDK를 사용하여 검색 불가능한 PDF를 검색 가능한 PDF로 변환하는 방법에 대해 자세히 논의할 것입니다.

OCR PDF 자바 SDK

PDF 파일을 다양한 지원 형식으로 생성, 조작 및 변환하기 위해 Aspose.PDF Cloud를 개발했습니다. 이제 Java 애플리케이션에서 OCR PDF Free를 구현하려면 Java Cloud API를 둘러싼 래퍼인 Aspose.PDF Cloud SDK for Java를 사용해 봐야 합니다. 이제 SDK 사용의 첫 번째 단계는 설치입니다. 따라서 maven 빌드 타입 프로젝트의 pom.xml에 다음 내용을 추가해주세요.

<repositories> 
    <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>http://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-pdf-cloud</artifactId>
        <version>21.11.0</version>
    </dependency>
</dependencies>

JDK 참조가 추가되면 Aspose Cloud를 통해 무료 계정을 만드십시오. 새로 만든 계정으로 로그인하고 클라우드 대시보드에서 Client ID와 Client Secret을 조회/생성합니다. 이러한 세부 정보는 후속 섹션에서 필요합니다.

Java를 사용하여 스캔한 PDF를 검색 가능한 PDF로

이 섹션에서는 Java 코드 조각을 사용하여 스캔한 PDF를 검색 가능한 PDF로 변환하는 방법에 대해 자세히 설명합니다. Java Cloud SDK는 다음 언어 인식을 지원합니다. eng, ara, bel, ben, bul, ces, dan, deu, ell, fin, fra, heb, hin, ind, isl, ita, jpn, kor, nld , nor, pol, por, ron, rus, spa, swe, tha, tur, ukr, vie, chisim, chitra 또는 이들의 조합(예: eng,rus).

  • 첫 번째 단계는 ClientID 및 Client secret 세부 정보를 인수로 사용하는 PdfApi 개체를 만드는 것입니다.
  • 둘째, OCR PDF를 로드할 파일 인스턴스를 만듭니다.
  • 셋째, uploadFile(…) 메서드를 호출하여 입력 PDF를 클라우드 스토리지에 업로드합니다.
  • 이미지 PDF에는 영어 텍스트가 포함되어 있으므로 “eng” 값을 포함하는 문자열 개체를 만들어야 합니다.
  • 마지막으로 입력 PDF 및 언어 코드를 인수로 요구하는 putSearchableDocument(…) 메서드를 호출합니다. 검색 가능한 결과 PDF는 동일한 클라우드 저장소에 저장됩니다.
try
    {
    // https://dashboard.aspose.cloud/에서 ClientID 및 ClientSecret 가져오기
    String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
    String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
	  
    // createPdfApi 인스턴스
    PdfApi pdfApi = new PdfApi(clientSecret,clientId);
	    				
    // 입력 이미지 PDF 문서
    String name = "ScannedPDF.pdf";	        
	    			    
    // 로컬 시스템에서 파일 로드
    File file = new File(name);
    // 파일을 클라우드 저장소에 업로드
    FilesUploadResult uploadResponse = pdfApi.uploadFile(name, file, null);
	    				
    // 이미지 PDF에서 사용되는 언어
    String lang = "eng";
	    				
    //  이미지 PDF 문서에서 OCR 수행
    AsposeResponse response = pdfApi.putSearchableDocument(name, null, null, lang);
	    
    // 인쇄 성공 메시지
    System.out.println("OCR PDF successfull !");
    }catch(Exception ex)
    {
        System.out.println(ex.getMessage());
    }
이미지 PDF를 검색 가능한 PDF로

Image1:- 검색 가능한 PDF 미리보기

위의 예에서 사용된 스캔된 PDF는 BusinessReport.pdf에서 다운로드할 수 있으며 결과 검색 가능한 PDF는 Converted.pdf에서 다운로드할 수 있습니다.

cURL 명령을 사용한 OCR 온라인

cURL 명령은 명령줄 터미널을 통해 REST API에 액세스하기 위한 편리한 접근 방식 중 하나입니다. 따라서 이 섹션에서는 OCR 온라인에 cURL 명령을 사용합니다. 이제 전제 조건으로 다음 명령을 실행하는 동안 먼저 JWT 액세스 토큰(클라이언트 자격 증명 기반)을 생성해야 합니다.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

JWT 토큰이 있으면 다음 명령을 사용하여 온라인에서 OCR을 수행하고 이미지 PDF를 검색 가능한 PDF 문서로 변환하십시오. 결과 파일은 클라우드 저장소에 저장됩니다.

curl -v -X GET "https://api.aspose.cloud/v4.0/words/Resultant.docx?format=TIFF&outPath=converted.tiff" \
-H  "accept: application/octet-stream" \
-H  "Authorization: Bearer <JWT Token>"

결론

이 기사에서는 Java Cloud SDK를 사용하여 Image PDF를 검색 가능한 PDF로 변환하는 간단하면서도 놀라운 몇 가지 단계에 대해 설명했습니다. 따라서 Java 코드 스니펫 또는 cURL 명령을 사용하여 OCR PDF를 수행할 수 있는 옵션이 제공됩니다. 이 접근 방식과는 별도로 swagger 인터페이스를 통해 웹 브라우저 내에서 API에 액세스하는 것을 고려할 수 있습니다. 또한 SDK는 MIT 라이선스로 제작되었으므로 GitHub에서 전체 소스 코드를 다운로드할 수 있습니다. API를 사용하는 동안 문제가 발생하는 경우 제품 지원 포럼을 통해 언제든지 문의하십시오.

관련 기사

자세히 알아보려면 다음 링크를 방문하는 것이 좋습니다.