PDF 텍스트 추출

.NET REST API를 사용하여 PDF에서 텍스트를 추출합니다.

PDF 문서는 다양한 플랫폼과 장치에서 정보를 공유하고 교환하는 표준이 되었습니다. PDF는 안전하고 일관된 형식을 제공하지만 이러한 문서에서 필수 데이터를 추출하는 것은 특히 대용량 정보를 처리할 때 어려운 작업이 될 수 있습니다. 분석, 데이터 입력 또는 콘텐츠 조작을 위해 텍스트를 추출해야 하는 경우 안정적이고 효율적인 텍스트 추출 솔루션이 중요합니다. 이 기사에서는 강력한 Aspose.PDF Cloud SDK로 구동되는 .NET REST API를 사용하여 PDF 파일에서 텍스트를 추출하는 세계를 탐구합니다.

PDF 처리를 위한 REST API

Aspose.PDF Cloud SDK for .NET은 PDF에서 텍스트 추출을 단순화하는 강력하고 사용자 친화적인 API입니다. .NET용 Aspose.PDF Cloud SDK의 뛰어난 기능 중 하나는 복잡한 PDF 구조를 처리하고 다양한 레이아웃이 있는 문서에서 텍스트를 정확하게 추출하는 기능입니다. PDF에 텍스트, 이미지, 표 또는 기타 복잡한 요소가 포함되어 있는지 여부에 관계없이 API는 문서를 지능적으로 탐색하고 텍스트 내용을 정확하게 검색할 수 있습니다. 따라서 강력한 기능, 정확성 및 통합 용이성은 .NET 응용 프로그램 내의 PDF 문서에서 귀중한 텍스트 데이터를 추출하는 데 이상적인 선택입니다.

이제 이 기능을 시작하기 위한 첫 번째 단계는 .NET 솔루션에 Cloud SDK 참조를 추가하는 것입니다. 따라서 NuGet 패키지 관리자에서 ‘Aspose.PDF-Cloud’를 검색하고 ‘패키지 추가’ 버튼을 클릭하세요. 둘째, 클라우드 대시보드를 방문하여 개인화된 클라이언트 자격 증명을 받으세요.

C# .NET을 사용하여 PDF 텍스트 추출

이 섹션에서는 프로그래밍 방식으로 PDF에서 텍스트를 추출하는 세부 사항을 살펴보겠습니다.

// 전체 예제와 데이터 파일을 보려면 다음으로 이동하세요. 
https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-dotnet

// https://dashboard.aspose.cloud/에서 클라이언트 자격 증명을 가져옵니다.
string clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
string clientID = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";

// PdfApi 인스턴스 생성
PdfApi pdfApi = new PdfApi(clientSecret, clientID);

// PDF 파일 이름 입력
String inputFile = "Binder1-1.pdf";
// PDF 파일의 내용을 스트림 인스턴스로 읽어옵니다.
var sourceFile = System.IO.File.OpenRead(inputFile);

// 클라우드 저장소에 PDF 파일 업로드
pdfApi.UploadFile("inputPDF.pdf", sourceFile);

// 하단 - 왼쪽 모서리의 X 좌표
Double LLX = 500.0;
// Y - 왼쪽 아래 모서리의 좌표입니다.
Double LLY = 500.0;
// X - 오른쪽 위 모서리의 좌표입니다.
Double URX = 800.0;
// Y - 오른쪽 위 모서리의 좌표입니다.
Double URY = 800.0;

// PDF 문서의 특정 좌표에서 텍스트를 추출하려면 API를 호출하세요.
TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);

// 개별 텍스트 발생을 통과합니다.
for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
    // 콘솔에 텍스트 내용 작성
    Console.WriteLine(response.TextOccurrences.List[counter].Text);
}
PDF 텍스트 추출

PDF 문서에서 가져온 텍스트 미리보기.

위에 언급된 코드 조각에 대한 세부 정보는 다음과 같습니다.

PdfApi pdfApi = new PdfApi(clientSecret, clientID);

먼저 클라이언트 자격 증명을 인수로 전달하는 PdfApi 클래스의 인스턴스를 만듭니다.

String inputFile = "Binder1-1.pdf";
var sourceFile = System.IO.File.OpenRead(inputFile);

입력 PDF 파일의 내용을 스트림 인스턴스에 로드합니다.

pdfApi.UploadFile("inputPDF.pdf", sourceFile);

PDF 문서를 클라우드 저장소에 업로드합니다.

TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);

PDF 파일에서 특정 페이지 좌표의 텍스트를 추출하려면 API를 호출하세요.

for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
    // write text content in console
    Console.WriteLine(response.TextOccurrences.List[counter].Text);
}

추출된 텍스트 항목이 포함된 목록을 반복하고 콘솔에서 텍스트 인스턴스를 인쇄합니다.

cURL 명령을 사용하여 PDF에서 텍스트 구문 분석

Aspose.PDF Cloud API와 함께 cURL 명령을 사용하면 클라우드 스토리지에 호스팅된 PDF 파일에서 텍스트 콘텐츠를 손쉽게 추출할 수 있습니다. API는 추출 프로세스를 사용자 정의하기 위한 다양한 매개변수를 지원하므로 좌표를 지정할 수 있고 기타 옵션을 사용하여 텍스트를 정확하게 추출할 수 있습니다.

이 접근 방식의 첫 번째 단계는 다음 명령을 실행하는 동안 JWT 액세스 토큰을 생성하는 것입니다.

curl -v "https://api.aspose.cloud/connect/token" \
 -X POST \
 -d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
 -H "Content-Type: application/x-www-form-urlencoded" \
 -H "Accept: application/json"

JWT 토큰이 생성되면 다음 명령을 실행하여 PDF 문서에서 텍스트를 가져오십시오.

curl -v "https://api.aspose.cloud/v3.0/pdf/{inputPDF}/text?splitRects=true&LLX=10&LLY=10&URX=800&URY=800" \
-X GET \
-H  "accept: application/json" \
-H  "authorization: Bearer {accessToken}" \
-o "extractedContent.txt"

‘inputPDF’를 클라우드 저장소에서 이미 사용할 수 있는 PDF 문서의 이름으로 바꾸고, ‘accessToken’을 위에서 생성된 JWT 토큰으로 바꿉니다.

결론

결론적으로 Aspose.PDF Cloud SDK for .NET과 cURL 명령 접근 방식은 모두 PDF 문서에서 텍스트를 추출하기 위한 효율적이고 안정적인 솔루션을 제공합니다. .NET용 Aspose.PDF Cloud SDK는 광범위한 기능을 갖춘 포괄적이고 개발자 친화적인 API를 제공하므로 PDF 텍스트 추출을 .NET 애플리케이션에 통합하기 위한 강력한 선택입니다. 반면, cURL 명령 접근 방식은 Aspose.PDF Cloud API와 상호 작용할 수 있는 유연하고 플랫폼 독립적인 방법을 제공하므로 다양한 환경과 프로그래밍 언어에서 작업하는 개발자에게 탁월한 옵션이 됩니다.

유용한 링크

관련 기사

다음 블로그를 방문하는 것이 좋습니다.