PDF(Portable Document Format) 파일은 서로 다른 플랫폼에서 문서를 공유하기 위한 가장 신뢰받고 널리 사용되는 형식 중 하나로, 소프트웨어나 장치에 관계없이 일관된 레이아웃과 모양을 보장합니다. 그러나 개발자가 PDF 파일에서 텍스트를 프로그래밍 방식으로 추출해야 하는 상황도 있습니다. 예를 들어 콘텐츠를 분석하거나, 문서 인덱싱, 또는 PDF를 편집 가능한 텍스트 형식으로 변환하는 경우입니다.

이 기사에서는 PDF 파일에서 텍스트를 추출하는 방법과 .NET REST API를 사용하여 PDF를 텍스트로 변환하는 변환기를 만드는 방법을 탐구할 것입니다. 이를 통해 REST API 호출을 통해 원활하고 자동화된 텍스트 추출이 가능해집니다.

PDF 처리 API

PDF 파일에서 효율적으로 텍스트를 추출하기 위해 Aspose.PDF Cloud SDK for .NET의 기능을 활용하십시오. 텍스트 추출 외에도 SDK는 처음부터 또는 템플릿에서 PDF 문서를 생성하고, 기존 PDF를 편집하며, 다른 지원되는 형식으로 변환할 수 있습니다. 또한 .NET REST API를 통해 PDF 파일을 직접적으로 복호화하고, 병합하고, 조작하는 작업도 수행할 수 있습니다.

이제 시작하려면 .NET 프로젝트에 SDK를 설치해야 합니다.

NuGet\Install-Package Aspose.Pdf-Cloud -Version 25.9.0

우리는 또한 Cloud Dashboard에서 무료 계정을 만들고 개인화된 클라이언트 자격 증명을 얻어야 합니다.

C#에서 PDF를 텍스트로 변환하는 작업을 수행하세요.

다음 단계에 따라 C# .NET을 사용하여 PDF 파일에서 텍스트를 추출하세요.

PdfApi pdfApi = new PdfApi(clientSecret, clientID);

PdfApi 클래스의 객체를 생성하고, 위에서 얻은 클라이언트 자격 증명을 인수로 전달합니다.

String inputFile = "sourceFile.pdf";
var sourceFile = System.IO.File.OpenRead(inputFile);
pdfApi.UploadFile("sourceFile.pdf", sourceFile);

로컬 드라이브에서 입력 PDF를 읽고 UploadFile(...) 메서드를 사용하여 클라우드 스토리지에 업로드합니다.

TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);

PDF 파일에서 GetText(...) 메서드를 사용하여 텍스트 내용을 추출해야 하는 영역을 지정해야 합니다.

for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
    // write text content in console
    Console.WriteLine(response.TextOccurrences.List[counter].Text);
}

텍스트 콘텐츠가 추출되면, 로컬 드라이브에 저장하거나 콘솔에 인쇄할 수 있습니다.

// 더 많은 예제는 https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-dotnet 를 방문해 주세요.

// https://dashboard.aspose.cloud/에서 클라이언트 자격 증명을 가져옵니다.
string clientSecret = "XXXXXXXXX";
string clientID = "XXXXXX-XXXXXXX-be35-ff5c3a6aa4a2";

// PdfApi 객체를 생성하면서 클라이언트 자격 증명을 인수로 전달하십시오.
PdfApi pdfApi = new PdfApi(clientSecret, clientID);

// Input PDF file name
String inputFile = "input.pdf";
// PDF 파일을 스트림 인스턴스에 로드합니다.
var sourceFile = OpenRead(inputFile);

// 클라우드 저장소에 PDF 파일을 업로드하십시오.
pdfApi.UploadFile("inputPDF.pdf", sourceFile);

// 왼쪽 아래 모서리의 X 좌표
Double LLX = 200.0;
// Y - 좌표의 왼쪽 아래 모서리.
Double LLY = 200.0;
// X - 오른쪽 위 모서리의 좌표.
Double URX = 600.0;
// 상단 오른쪽 모서리의 Y 좌표.
Double URY = 650.0;

// 지정된 좌표에서 텍스트를 추출하기 위해 API를 호출하십시오.
TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);

// 이제 각 텍스트 항목을 반복하여 콘솔에 출력합니다.
// 대안으로, 우리는 출력 결과를 .txt 파일에 직접 저장할 수도 있습니다.
for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
    // write text content in console
    Console.WriteLine(response.TextOccurrences.List[counter].Text);
}

PDF에서 cURL을 사용하여 텍스트 추출하기

.NET 또는 Java 코드 스니펫을 사용하는 것 외에도, cURL 명령을 통해 Aspose.PDF Cloud를 사용하여 PDF 파일에서 텍스트를 추출할 수 있습니다. 따라서 이 접근 방식에서 전제 조건은 JWT 액세스 토큰(클라이언트 자격 증명 기반)을 생성하는 것이며, 이는 다음 명령을 사용하여 얻을 수 있습니다.

1단계. - JWTAccess 토큰 얻기:

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=XXXXX-XXXXX-XXXXXX-ff5c3a6aa4a2&client_secret=XXXXXXXXXXXX" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

1단계 - PDF 파일에서 텍스트 추출:

curl -v "https://api.aspose.cloud/v3.0/pdf/{inputPDF}/text?splitRects=true&LLX=10&LLY=10&URX=800&URY=800" \
-X GET \
-H  "accept: application/json" \
-H  "authorization: Bearer {Access_Token}" \
-o "extractedContent.txt"
  • 명령이 성공적으로 실행되면 지정된 직사각형 영역의 텍스트가 텍스트 파일로 추출됩니다.

무료 PDF 파서 앱

API의 기능을 코딩이나 cURL 명령 없이 테스트하고 싶다면 .NET REST APIs를 기반으로 구축된 [Free PDF Parser] 애플리케이션을 사용해 보세요.

pdf parser app

결론적 언급

이 기사에서는 Aspose.PDF Cloud SDK for .NET을 .NET 프로젝트에 통합하는 방법과 텍스트 추출 목적으로 cURL 명령어를 사용하여 명령줄 인터페이스를 통해 PDF 텍스트 추출을 수행하는 옵션을 탐색했습니다. 따라서 귀하의 목표가 데이터 분석, 기계 학습 또는 기타 자동화 목적이든 상관없이 SDK는 PDF 콘텐츠를 효율적으로 처리할 수 있는 신뢰할 수 있는 도구를 제공합니다. 이러한 기술을 실천에 옮기고 전문가처럼 PDF 처리를 간소화하세요!

읽기 자료

관련 기사

다음 링크를 방문하여 더 알아보시기를 권장합니다: