A menudo necesitamos convertir PDF a archivos de texto para su uso en análisis de datos, indexación de búsqueda o reutilización de contenido. Además, si desea construir un convertidor de PDF a texto, automatizar OCR en línea o copiar texto de documentos PDF para su posterior procesamiento, nuestra API REST proporciona una solución confiable y amigable para desarrolladores.

API de Conversión de PDF

El Aspose.PDF Cloud SDK for .NET es una API basada en la nube que simplifica la extracción de texto de documentos y el procesamiento de PDF. Maneja de manera inteligente tanto PDFs basados en texto como en imágenes, proporcionando una salida precisa y estructurada en formato TXT.

Las características clave incluyen:

  • Extracción de archivo PDF a TXT con alta precisión.
  • API REST multiplataforma — funciona sin problemas en C#, .NET Core o cualquier entorno con soporte HTTP.
  • Soporte para extracción parcial: define regiones y extrae texto de áreas específicas.

Para comenzar, añade el SDK a tu proyecto .NET usando NuGet:

Install-Package Aspose.PDF-Cloud

Luego, visita el Aspose Cloud Dashboard para obtener tu ID de cliente y credenciales de secreto de cliente.

Conversión de PDF a texto utilizando C# .NET

Veamos cómo convertir un PDF a un archivo de texto en C# utilizando la API REST de .NET.

Paso 1. - Cree una instancia de la clase PdfApi utilizando las credenciales del cliente.

PdfApi pdfApi = new PdfApi(clientSecret, clientID);

Paso 2. - Leer el archivo PDF de entrada y cargarlo en el almacenamiento en la nube.

var sourceFile = File.OpenRead(inputFile);
pdfApi.UploadFile("inputPDF.pdf", sourceFile);

Paso 3. - Especificar la región rectangular en PDF y extraer texto utilizando el método GetText(...).

TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);

Paso 4. - Iterar a través de la lista que contiene las ocurrencias de texto y guardarla en el disco local.

foreach (var textFragment in response.TextOccurrences.List)
{
    output.WriteLine(textFragment.Text);
}
// Para ejemplos completos y archivos de datos, por favor visite https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-dotnet
// Obtener credenciales de cliente de https://dashboard.aspose.cloud/

// Crea una instancia de la clase PdfApi
var pdfApi = new PdfApi("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");

// Sube el PDF a un almacenamiento en la nube
using (var fileStream = File.OpenRead("inputPDF.pdf"))
{
    pdfApi.UploadFile("inputPDF.pdf", fileStream);
}

// Extract text from the uploaded PDF
var response = pdfApi.GetText("inputPDF.pdf", 0, 0, 800, 800, null, null, null, null, null);

// Guarda el texto extraído localmente
using (StreamWriter output = new StreamWriter("output.txt"))
{
    foreach (var textFragment in response.TextOccurrences.List)
    {
        output.WriteLine(textFragment.Text);
    }
}
Console.WriteLine("PDF to text conversion completed successfully!");

Convertir PDF a archivo TXT usando cURL

Para los desarrolladores que prefieren un flujo de trabajo de scripting o multiplataforma, la API REST de Aspose.PDF Cloud también se puede acceder utilizando comandos cURL.

Paso 1. – Generar un Token de Acceso:

curl -v "https://api.aspose.cloud/connect/token" \
 -X POST \
 -d "grant_type=client_credentials&client_id=XXXXXXX-XXXXXX-ff5c3a6aa4a2&client_secret=XXXXXXXXXXX" \
 -H "Content-Type: application/x-www-form-urlencoded" \
 -H "Accept: application/json"

Paso 2. – Extraer texto de PDF Una vez que se haya generado el token JWT, ejecute el siguiente comando para extraer el texto del documento PDF.

curl -v "https://api.aspose.cloud/v3.0/pdf/{inputPDF}/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-X GET \
-H  "accept: application/json" \
-H  "authorization: Bearer {ACCESS_TOKEN}" \
-o "resultant.txt"

Este comando cURL recupera contenido textual de su archivo PDF y lo almacena en un archivo .txt, lo que lo convierte en un método ideal para la conversión de PDF a archivo de texto en entornos automatizados.

Prueba el conversor de PDF a texto gratuito

¿Estás buscando conversión de PDF a TXT sin codificación? Prueba nuestro Conversor de PDF a Texto en Línea Gratuito — impulsado por Aspose.PDF Cloud. Simplemente sube tu PDF y descarga el archivo de texto extraído en segundos.

extract text from PDF

Conclusión

En este artículo, hemos aprendido que la conversión de PDF a texto es esencial para extraer y reutilizar información de manera eficiente. Con Aspose.PDF Cloud, puedes automatizar el proceso de copiar texto de PDFs, manejar archivos escaneados utilizando OCR en línea, y exportar datos como texto estructurado para análisis o indexación de búsqueda.

Preguntas Frecuentes (FAQ)

  1. Can I copy text from PDF programmatically? Absolutamente. La API te permite copiar texto de archivos PDF al recuperar todas las ocurrencias de texto o extrayendo de regiones específicas utilizando coordenadas.

  2. ¿Cuál es la diferencia entre PDF a texto y texto a PDF? PDF a texto extrae datos textuales de documentos, mientras que texto a PDF crea un nuevo documento PDF a partir de una entrada de texto plano. Aspose.PDF Cloud admite ambas operaciones.

  3. ¿Necesito tener Adobe Acrobat instalado? No. El SDK de Aspose.PDF Cloud opera de forma independiente de Adobe Acrobat o cualquier otro software. Todas las operaciones de conversión de PDF a texto ocurren en la nube.

  4. ¿Es preciso el texto extraído para diseños complejos? Sí. La API puede extraer texto con precisión de diseños de múltiples columnas, tablas y PDFs de contenido mixto, manteniendo una estructura clara y legible en el archivo TXT resultante.

Enlaces útiles

Artículos Relacionados

Recomendamos encarecidamente visitar los siguientes blogs: