우리는 종종 PDF를 데이터 분석, 검색 색인 생성 또는 콘텐츠 재사용을 위해 텍스트 파일로 변환해야 합니다. 또한 PDF를 텍스트로 변환하는 프로그램을 만들거나, 온라인에서 OCR을 자동화하거나, 추가 처리를 위해 PDF 문서에서 텍스트를 복사하고 싶다면, 우리의 REST API는 신뢰할 수 있고 개발자 친화적인 솔루션을 제공합니다.

PDF 변환 API

Aspose.PDF Cloud SDK for .NET는 문서 텍스트 추출 및 PDF 처리를 단순화하는 클라우드 기반 API입니다. 텍스트 기반 및 이미지 기반 PDF를 모두 지능적으로 처리하여 TXT 형식으로 정확하고 구조화된 출력을 제공합니다.

주요 기능은 다음과 같습니다:

  • PDF에서 TXT 파일 추출 고정밀도.
  • 크로스 플랫폼 REST API — C#, .NET Core 또는 HTTP 지원이 있는 모든 환경에서 원활하게 작동합니다.
  • 부분 추출 지원 — 영역을 정의하고 특정 영역에서 텍스트를 추출합니다.

시작하려면, NuGet을 사용하여 .NET 프로젝트에 SDK를 추가하세요:

Install-Package Aspose.PDF-Cloud

그럼 Aspose Cloud Dashboard를 방문하여 클라이언트 ID와 클라이언트 비밀 자격증명을 얻으세요.

C# .NET을 사용한 PDF에서 텍스트 변환

PDF를 C#에서 .NET REST API를 사용하여 텍스트 파일로 변환하는 방법을 살펴보겠습니다.

1단계. - 클라이언트 자격 증명을 사용하여 PdfApi 클래스의 인스턴스를 생성합니다.

PdfApi pdfApi = new PdfApi(clientSecret, clientID);

Step 2. - 입력 PDF 파일을 읽고 클라우드 저장소에 업로드합니다.

var sourceFile = File.OpenRead(inputFile);
pdfApi.UploadFile("inputPDF.pdf", sourceFile);

Step 3. - PDF에서 직사각형 영역을 지정하고 GetText(...) 메서드를 사용하여 텍스트를 추출합니다.

TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);

4단계 - 텍스트가 포함된 목록을 반복하여 로컬 드라이브에 저장합니다.

foreach (var textFragment in response.TextOccurrences.List)
{
    output.WriteLine(textFragment.Text);
}
// 완전한 예제와 데이터 파일은 https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-dotnet 에서 확인하시기 바랍니다.
// 클라이언트 자격 증명을 https://dashboard.aspose.cloud/ 에서 얻으세요.

// PdfApi 클래스의 인스턴스를 생성합니다.
var pdfApi = new PdfApi("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");

// 클라우드 스토리지에 PDF를 업로드하십시오.
using (var fileStream = File.OpenRead("inputPDF.pdf"))
{
    pdfApi.UploadFile("inputPDF.pdf", fileStream);
}

// Extract text from the uploaded PDF
var response = pdfApi.GetText("inputPDF.pdf", 0, 0, 800, 800, null, null, null, null, null);

// 추출된 텍스트를 로컬에 저장하세요.
using (StreamWriter output = new StreamWriter("output.txt"))
{
    foreach (var textFragment in response.TextOccurrences.List)
    {
        output.WriteLine(textFragment.Text);
    }
}
Console.WriteLine("PDF to text conversion completed successfully!");

PDF를 TXT 파일로 변환하는 방법은 cURL을 사용하여 수행할 수 있습니다.

개발자들이 스크립팅 또는 크로스 플랫폼 워크플로를 선호하는 경우, Aspose.PDF Cloud REST API는 cURL 명령을 사용하여 접근할 수 있습니다.

1단계. – 액세스 토큰 생성:

curl -v "https://api.aspose.cloud/connect/token" \
 -X POST \
 -d "grant_type=client_credentials&client_id=XXXXXXX-XXXXXX-ff5c3a6aa4a2&client_secret=XXXXXXXXXXX" \
 -H "Content-Type: application/x-www-form-urlencoded" \
 -H "Accept: application/json"

Step 2. – PDF에서 텍스트 추출하기 JWT 토큰이 생성되면, PDF 문서에서 텍스트를 가져오기 위해 다음 명령을 실행해 주십시오.

curl -v "https://api.aspose.cloud/v3.0/pdf/{inputPDF}/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-X GET \
-H  "accept: application/json" \
-H  "authorization: Bearer {ACCESS_TOKEN}" \
-o "resultant.txt"

이 cURL 명령은 PDF 파일에서 텍스트 내용을 검색하여 .txt 파일에 저장하므로 자동화된 환경에서 PDF를 텍스트 파일로 변환하는 데 이상적인 방법입니다.

무료 PDF를 텍스트 변환기로 변환해 보세요.

코딩 없이 PDF를 TXT로 변환하려고 하시나요? 무료 온라인 PDF to Text Converter를 사용해 보세요 — Aspose.PDF Cloud에서 제공됩니다. PDF를 업로드하고 몇 초 안에 추출된 텍스트 파일을 다운로드하기만 하면 됩니다.

extract text from PDF

결론

이 기사에서는 PDF를 텍스트로 변환하는 것이 정보를 효율적으로 추출하고 재사용하는 데 필수적임을 배웠습니다. Aspose.PDF Cloud를 사용하면 PDF에서 텍스트를 복사하는 프로세스를 자동화하고, 온라인에서 OCR을 사용하여 스캔된 파일을 처리하며, 분석 또는 검색 인덱싱을 위해 데이터를 구조화된 텍스트로 내보낼 수 있습니다.

자주 묻는 질문 (FAQs)

  1. Can I copy text from PDF programmatically? 절대적으로. API를 사용하면 PDF 파일에서 모든 텍스트 발생을 검색하거나 좌표를 사용하여 특정 영역에서 추출하여 텍스트를 복사할 수 있습니다.

  2. PDF에서 텍스트로 변환과 텍스트에서 PDF로 변환의 차이는 무엇인가요? PDF에서 텍스트로는 문서의 텍스트 데이터를 추출하고, 텍스트에서 PDF로는 일반 텍스트 입력을 통해 새로운 PDF 문서를 생성합니다. Aspose.PDF Cloud는 두 가지 작업을 모두 지원합니다.

  3. Adobe Acrobat이 설치되어 있어야 하나요? 아니요. Aspose.PDF Cloud SDK는 Adobe Acrobat이나 다른 소프트웨어와 무관하게 작동합니다. 모든 PDF에서 텍스트로 변환 작업은 클라우드에서 발생합니다.

  4. 추출된 텍스트가 복잡한 레이아웃에 대해 정확한가요? 네. API는 멀티컬럼 레이아웃, 테이블 및 혼합 콘텐츠 PDF에서 텍스트를 정확하게 추출할 수 있으며, 결과 TXT 파일에서 깔끔하고 읽기 쉬운 구조를 유지합니다.

유용한 링크

관련 기사

우리는 다음 블로그를 방문하는 것을 강력히 추천합니다: