이미지 PDF를 검색 가능한 PDF로

이미지 PDF를 검색 가능한 PDF로 변환

오늘날의 데이터 중심 세계에서 PDF는 문서를 저장하고 공유하는 데 없어서는 안 될 형식이 되었습니다. 그러나 모든 PDF, 특히 이미지 기반 PDF를 쉽게 검색하거나 편집할 수 있는 것은 아닙니다. 문서를 다룰 때 추가 조작을 위해 텍스트 정보를 복사/추출하는 것은 정말 어렵습니다. 다행히 광학 문자 인식(OCR) 기술을 사용하면 이미지 PDF를 검색 가능한 PDF로 쉽게 변환할 수 있습니다. 이 기술 블로그에서는 REST API에 중점을 두고 다양한 기술을 사용하여 OCR PDF를 검색 가능한 PDF로 변환하는 방법을 살펴봅니다. 또한 OCR PDF에서 텍스트를 추출하는 방법에 대해 논의하여 OCR 기술을 활용하여 PDF 문서의 잠재력을 최대한 활용하는 방법에 대한 포괄적인 이해를 제공합니다.

Java SDK를 사용하는 OCR PDF

Aspose.PDF Cloud SDK for Java는 PDF 문서 작업을 위한 광범위한 기능을 제공하는 강력한 클라우드 기반 API입니다. 주요 기능 중 하나는 PDF에서 OCR을 수행하는 기능으로, 이미지 기반 PDF에서 텍스트를 추출하고 검색 가능한 PDF를 생성하는 프로세스를 크게 단순화할 수 있습니다. 사용자 친화적인 인터페이스와 포괄적인 설명서를 갖춘 이 SDK를 사용하면 PDF에서 OCR을 수행하는 프로세스를 쉽게 자동화하여 시간을 절약하고 생산성을 높일 수 있습니다.

또한 이 클라우드 기반 API는 다양한 입력 형식을 처리하도록 설계되었으며 손으로 쓴 텍스트도 인식할 수 있으므로 문서 작업 흐름을 간소화하려는 기업 및 개발자에게 탁월한 선택입니다. 이제 첫 번째 단계는 maven 빌드 프로젝트의 pom.xml에 다음 세부 정보를 추가하여 Java 프로젝트에 해당 참조를 추가하는 것입니다.

<repositories> 
    <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>http://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-pdf-cloud</artifactId>
        <version>21.11.0</version>
    </dependency>
</dependencies>

기존 계정이 없는 경우 Aspose Cloud를 통해 무료 계정을 생성해야 합니다. 새로 만든 계정으로 로그인하고 클라우드 대시보드에서 Client ID와 Client Secret을 조회/생성합니다. 이러한 세부 정보는 후속 섹션에서 필요합니다.

Java를 사용하여 스캔한 PDF를 검색 가능한 PDF로

이 섹션에서는 Java 코드 조각을 사용하여 스캔한 PDF를 검색 가능한 PDF로 변환하는 방법에 대해 자세히 설명합니다. Java Cloud SDK는 다음 언어 인식을 지원합니다. eng, ara, bel, ben, bul, ces, dan, deu, ell, fin, fra, heb, hin, ind, isl, ita, jpn, kor, nld , nor, pol, por, ron, rus, spa, swe, tha, tur, ukr, vie, chisim, chitra 또는 이들의 조합(예: eng,rus).

  • 먼저 PdfApi 개체를 생성해야 합니다. 여기에서 ClientID 및 Client secret 세부 정보를 인수로 전달합니다.
  • 둘째, Image PDF를 로드할 File 클래스의 인스턴스를 만듭니다.
  • 셋째, uploadFile(…) 메서드를 호출하여 입력 PDF를 클라우드 저장소에 업로드합니다.
  • 이미지 PDF에 영어 텍스트가 포함되어 있으므로 “eng” 값을 포함하는 문자열 개체를 만들어야 합니다.
  • 마지막으로 입력 PDF와 언어 코드를 인수로 요구하는 putSearchableDocument(…) 메서드를 호출합니다.

코드가 성공적으로 실행되면 검색 가능한 PDF가 클라우드 저장소에 저장됩니다.

try
    {
    // https://dashboard.aspose.cloud/에서 ClientID 및 ClientSecret 가져오기
    String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
    String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
	  
    // createPdfApi 인스턴스
    PdfApi pdfApi = new PdfApi(clientSecret,clientId);
	    				
    // 입력 이미지 PDF 문서
    String name = "ScannedPDF.pdf";	        
	    			    
    // 로컬 시스템에서 파일 로드
    File file = new File(name);
    // 파일을 클라우드 저장소에 업로드
    FilesUploadResult uploadResponse = pdfApi.uploadFile(name, file, null);
	    				
    // 이미지 PDF에서 사용되는 언어
    String lang = "eng";
	    				
    //  이미지 PDF 문서에서 OCR 수행
    AsposeResponse response = pdfApi.putSearchableDocument(name, null, null, lang);
	    
    // 인쇄 성공 메시지
    System.out.println("OCR PDF successfull !");
    }catch(Exception ex)
    {
        System.out.println(ex.getMessage());
    }
이미지 PDF를 검색 가능한 PDF로

Image1:- 검색 가능한 PDF 미리보기

위의 예에서 사용된 스캔된 PDF는 BusinessReport.pdf에서 다운로드할 수 있으며 검색 가능한 결과 PDF는 Converted.pdf에서 다운로드할 수 있습니다.

cURL 명령을 사용한 OCR 온라인

cURL 명령은 REST API를 호출하는 편리한 방법 중 하나입니다. 따라서 이 섹션에서는 OCR 온라인에 cURL 명령을 사용합니다. 이제 전제 조건으로 다음 명령을 실행하는 동안 먼저 JWT 액세스 토큰(클라이언트 자격 증명 기반)을 생성해야 합니다.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

JWT 토큰이 있으면 다음 명령을 사용하여 온라인에서 OCR을 수행하고 이미지 PDF를 검색 가능한 PDF 문서로 변환하십시오. 결과 파일은 클라우드 저장소에 저장됩니다.

curl -v -X GET "https://api.aspose.cloud/v4.0/words/Resultant.docx?format=TIFF&outPath=converted.tiff" \
-H  "accept: application/octet-stream" \
-H  "Authorization: Bearer <JWT Token>"

결론

PDF에서 OCR을 수행하는 것은 이러한 문서의 잠재력을 최대한 활용하기 위한 중요한 프로세스입니다. Aspose.PDF Cloud SDK for Java와 같은 클라우드 기반 OCR 도구의 도움으로 이 프로세스를 단순화하고 자동화하여 시간을 절약하고 생산성을 높일 수 있습니다. 기업과 개발자는 OCR의 기능을 활용하여 이미지 기반 PDF를 검색 가능한 PDF로 변환하여 보다 쉽게 검색, 편집 및 공유할 수 있습니다. 이 API는 PDF 작업을 위한 다양한 강력한 기능을 제공합니다. 이 기술 블로그에서 제공하는 단계별 가이드를 따르면 PDF에서 OCR을 시작하고 문서 워크플로우를 한 단계 높일 수 있습니다.

swagger 인터페이스를 사용하여 웹 브라우저 내에서 API에 액세스하는 것을 고려할 수 있습니다. 또한 SDK는 MIT 라이선스로 제작되었으므로 GitHub에서 전체 소스 코드를 다운로드할 수 있습니다. API를 사용하는 동안 문제가 발생하는 경우 무료 제품 지원 포럼을 통해 언제든지 문의하십시오.

관련 기사

자세히 알아보려면 다음 링크를 방문하는 것이 좋습니다.