A menudo necesitamos convertir PDF a archivos de texto para su uso en análisis de datos, indexación de búsqueda o reutilización de contenido. Además, si desea construir un convertidor de PDF a texto, automatizar OCR en línea o copiar texto de documentos PDF para su posterior procesamiento, nuestra API REST proporciona una solución confiable y amigable para desarrolladores.
- API de conversión de PDF
- Conversión de PDF a Texto utilizando C# .NET
- Convertir PDF a archivo TXT usando cURL
API de Conversión de PDF
El Aspose.PDF Cloud SDK for .NET es una API basada en la nube que simplifica la extracción de texto de documentos y el procesamiento de PDF. Maneja de manera inteligente tanto PDFs basados en texto como en imágenes, proporcionando una salida precisa y estructurada en formato TXT.
Las características clave incluyen:
- Extracción de archivo PDF a TXT con alta precisión.
- API REST multiplataforma — funciona sin problemas en C#, .NET Core o cualquier entorno con soporte HTTP.
- Soporte para extracción parcial: define regiones y extrae texto de áreas específicas.
Para comenzar, añade el SDK a tu proyecto .NET usando NuGet:
Install-Package Aspose.PDF-Cloud
Luego, visita el Aspose Cloud Dashboard para obtener tu ID de cliente y credenciales de secreto de cliente.
Conversión de PDF a texto utilizando C# .NET
Veamos cómo convertir un PDF a un archivo de texto en C# utilizando la API REST de .NET.
Paso 1. - Cree una instancia de la clase PdfApi
utilizando las credenciales del cliente.
PdfApi pdfApi = new PdfApi(clientSecret, clientID);
Paso 2. - Leer el archivo PDF de entrada y cargarlo en el almacenamiento en la nube.
var sourceFile = File.OpenRead(inputFile);
pdfApi.UploadFile("inputPDF.pdf", sourceFile);
Paso 3. - Especificar la región rectangular en PDF y extraer texto utilizando el método GetText(...)
.
TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);
Paso 4. - Iterar a través de la lista que contiene las ocurrencias de texto y guardarla en el disco local.
foreach (var textFragment in response.TextOccurrences.List)
{
output.WriteLine(textFragment.Text);
}
// Para ejemplos completos y archivos de datos, por favor visite https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-dotnet
// Obtener credenciales de cliente de https://dashboard.aspose.cloud/
// Crea una instancia de la clase PdfApi
var pdfApi = new PdfApi("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
// Sube el PDF a un almacenamiento en la nube
using (var fileStream = File.OpenRead("inputPDF.pdf"))
{
pdfApi.UploadFile("inputPDF.pdf", fileStream);
}
// Extract text from the uploaded PDF
var response = pdfApi.GetText("inputPDF.pdf", 0, 0, 800, 800, null, null, null, null, null);
// Guarda el texto extraído localmente
using (StreamWriter output = new StreamWriter("output.txt"))
{
foreach (var textFragment in response.TextOccurrences.List)
{
output.WriteLine(textFragment.Text);
}
}
Console.WriteLine("PDF to text conversion completed successfully!");
Convertir PDF a archivo TXT usando cURL
Para los desarrolladores que prefieren un flujo de trabajo de scripting o multiplataforma, la API REST de Aspose.PDF Cloud también se puede acceder utilizando comandos cURL.
Paso 1. – Generar un Token de Acceso:
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=XXXXXXX-XXXXXX-ff5c3a6aa4a2&client_secret=XXXXXXXXXXX" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
Paso 2. – Extraer texto de PDF Una vez que se haya generado el token JWT, ejecute el siguiente comando para extraer el texto del documento PDF.
curl -v "https://api.aspose.cloud/v3.0/pdf/{inputPDF}/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-X GET \
-H "accept: application/json" \
-H "authorization: Bearer {ACCESS_TOKEN}" \
-o "resultant.txt"
Este comando cURL recupera contenido textual de su archivo PDF y lo almacena en un archivo .txt, lo que lo convierte en un método ideal para la conversión de PDF a archivo de texto en entornos automatizados.
Prueba el conversor de PDF a texto gratuito
¿Estás buscando conversión de PDF a TXT sin codificación? Prueba nuestro Conversor de PDF a Texto en Línea Gratuito — impulsado por Aspose.PDF Cloud. Simplemente sube tu PDF y descarga el archivo de texto extraído en segundos.

Conclusión
En este artículo, hemos aprendido que la conversión de PDF a texto es esencial para extraer y reutilizar información de manera eficiente. Con Aspose.PDF Cloud, puedes automatizar el proceso de copiar texto de PDFs, manejar archivos escaneados utilizando OCR en línea, y exportar datos como texto estructurado para análisis o indexación de búsqueda.
Preguntas Frecuentes (FAQ)
-
Can I copy text from PDF programmatically? Absolutamente. La API te permite copiar texto de archivos PDF al recuperar todas las ocurrencias de texto o extrayendo de regiones específicas utilizando coordenadas.
-
¿Cuál es la diferencia entre PDF a texto y texto a PDF? PDF a texto extrae datos textuales de documentos, mientras que texto a PDF crea un nuevo documento PDF a partir de una entrada de texto plano. Aspose.PDF Cloud admite ambas operaciones.
-
¿Necesito tener Adobe Acrobat instalado? No. El SDK de Aspose.PDF Cloud opera de forma independiente de Adobe Acrobat o cualquier otro software. Todas las operaciones de conversión de PDF a texto ocurren en la nube.
-
¿Es preciso el texto extraído para diseños complejos? Sí. La API puede extraer texto con precisión de diseños de múltiples columnas, tablas y PDFs de contenido mixto, manteniendo una estructura clara y legible en el archivo TXT resultante.
Enlaces útiles
Artículos Relacionados
Recomendamos encarecidamente visitar los siguientes blogs: