
파이썬에서 PDF를 텍스트로 변환하는 방법
오늘날의 디지털 세계는 정보가 풍부하며 PDF 문서에서 텍스트를 추출하는 기능은 편의성을 넘어 필수가 되었습니다. 긴 PDF 파일을 살펴보고 연구에 인용할 중요한 정보를 찾거나 문서 저장소를 관리하면서 분석을 위해 데이터를 추출하려고 한다고 상상해 보세요. 이러한 시나리오와 그 외 여러 시나리오에서 PDF 콘텐츠를 일반 텍스트로 손쉽게 변환하는 기능은 게임 체인저로 등장합니다. 이 문서에서는 Python Cloud SDK를 사용하여 PDF에서 텍스트를 추출하는 심오한 목적과 부인할 수 없는 이점을 살펴봅니다. 이러한 변환을 통해 개인과 조직은 정보가 매우 중요한 세상에서 디지털 콘텐츠를 효율적으로 관리, 분석 및 활용할 수 있습니다.
PDF를 텍스트로 변환 REST API
PDF 문서에서 텍스트를 추출하는 것은 Aspose.PDF Cloud SDK for Python을 사용하면 원활하고 효율적으로 이루어집니다. 이 다재다능한 SDK를 사용하면 PDF 콘텐츠를 일반 텍스트로 손쉽게 변환하여 이러한 디지털 문서에 저장된 정보를 잠금 해제할 수 있습니다.
Cloud SDK는 PIP 및 GitHub 저장소에서 무료로 다운로드할 수 있습니다. 이제 터미널/명령 프롬프트에서 다음 명령을 실행하여 최신 버전의 SDK를 설치하세요.
pip install asposepdfcloud
PyCharm IDE를 사용하는 경우 SDK를 프로젝트에 종속성으로 직접 추가할 수 있습니다.
파일 ->설정 ->프로젝트 ->Python 인터프리터 ->asposepdfcloud
설치 후 다음 주요 단계는 Aspose.Cloud 대시보드를 통한 클라우드 서비스의 무료 구독입니다. GitHub 또는 Google 계정이 있는 경우 간단히 가입하거나 새 계정 만들기 버튼을 클릭하세요. 이제 대시보드에 로그인하여 개인화된 클라이언트 ID와 클라이언트 비밀 정보를 얻으세요.
파이썬으로 PDF에서 텍스트 추출하기
Python SDK를 사용하여 PDF 문서에서 텍스트를 추출하려면 아래 지침을 따르세요.
- 먼저 클라이언트 ID와 클라이언트 비밀번호를 인수로 제공하면서 ApiClient 클래스의 인스턴스를 생성합니다.
- 둘째, ApiClient 객체를 입력 인수로 사용하는 PdfApi 클래스의 인스턴스를 생성합니다.
- 이제 LLX, LLY, URX 및 URY 좌표를 제공하면서 gettext(…) 메서드를 호출합니다.
def extractText():
try:
#Client credentials
client_secret = "1c9379bb7d701c26cc87e741a29987bb"
client_id = "bbf94a2c-6d7e-4020-b4d2-b9809741374e"
#initialize PdfApi client instance using client credetials
pdf_api_client = asposepdfcloud.api_client.ApiClient(client_secret, client_id)
# PdfApiClient를 인수로 전달하면서 PdfApi 인스턴스를 생성합니다.
pdf_api = PdfApi(pdf_api_client)
#source image file
input_file = 'awesomeTable.pdf'
# 텍스트를 추출하기 위한 메서드 호출
response = pdf_api.get_text(name = input_file, llx=0,lly=0, urx=800, ury =800)
print(response)
# 콘솔에 메시지 출력 (선택 사항)
print('Text Extracted successfully from PDF !')
except ApiException as e:
print("Exception while calling PdfApi: {0}".format(e))
print("Code:" + str(e.code))
print("Message:" + e.message)

이미지 1: PDF를 텍스트로 미리보기.
문서의 특정 페이지에서 텍스트를 추출해야 하는 경우 인수로 pageNumber를 사용하는 GetPageText API를 사용해 보세요.
cURL 명령을 사용한 PDF에서 텍스트로 변환
Aspose.PDF Cloud와 cURL 명령의 강력한 조합을 사용하여 PDF 콘텐츠를 일반 텍스트로 매끄럽게 변환하는 것을 경험하세요. 이 동적 통합은 PDF에서 텍스트로의 변환을 간소화할 뿐만 아니라 문서 관리 및 텍스트 추출 경험을 향상시키는 여러 가지 이점을 제공합니다.
이 접근 방식의 전제 조건은 클라이언트 자격 증명을 기반으로 JSON 웹 토큰(JWT)을 생성하는 것입니다. 이 단계는 등록된 사용자만 API에 액세스할 수 있으므로 필수입니다. 다음 명령을 실행하여 JWT 토큰을 생성하세요.
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bbf94a2c-6d7e-4020-b4d2-b9809741374e&client_secret=1c9379bb7d701c26cc87e741a29987bb" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
JWT 토큰이 있으면 다음 명령을 사용하여 모든 텍스트 콘텐츠를 추출하여 PDF를 텍스트로 변환할 수 있습니다. 출력은 로컬 드라이브에 일반 텍스트 파일로 저장됩니다.
curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/awesomeTable.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H "accept: application/json" \
-H "authorization: Bearer <JWT Token>" \
-o Extracted.txt
위 예제에서 사용된 샘플은 awesomeTable.pdf에서 다운로드할 수 있습니다.
결론
PDF 문서에서 텍스트를 추출하는 것은 디지털 정보로 가득 찬 세상에서 중요한 요구 사항입니다. 이 프로세스를 탐구하면서 우리는 두 가지 동적 경로를 살펴보았습니다. 하나는 다재다능한 Aspose.PDF Cloud SDK for Python을 통한 경로이고, 다른 하나는 Aspose.PDF Cloud와 cURL 명령의 강력한 조합을 통한 경로입니다.
두 접근 방식 모두 정적 PDF 콘텐츠와 동적 텍스트 간의 격차를 메우고 디지털 정보를 관리, 분석 및 활용하는 방식을 개선합니다. SDK의 정교함이나 cURL 명령의 단순함을 선택하든 두 경로 모두 효율적인 PDF-텍스트 변환으로 이어져 PDF 문서 내에 숨겨진 풍부한 텍스트 데이터를 잠금 해제할 수 있습니다.
관련기사
자세한 내용을 알아보려면 다음 링크를 방문해 보세요.