Los archivos PDF(Portable Document Format) son uno de los formatos más confiables y utilizados para compartir documentos a través de diferentes plataformas, asegurando un diseño y apariencia consistentes independientemente del software o dispositivo. Sin embargo, hay situaciones en las que los desarrolladores necesitan extraer texto de archivos PDF de manera programática, como analizar contenido, indexar documentos o convertir PDFs en formatos de texto editables.
En este artículo, exploraremos cómo extraer texto de archivos PDF y construir un convertidor de PDF a texto utilizando la API REST de .NET, lo que permite una extracción de texto fluida y automatizada a través de llamadas a la API REST.
- API de Procesamiento de PDF
- Realizar la conversión de PDF a texto en C#
- Extraer texto de PDF usando cURL
API de Procesamiento de PDF
Aproveche el poder de Aspose.PDF Cloud SDK for .NET para extraer texto de archivos PDF de manera eficiente. Además de la extracción de texto, el SDK le permite crear documentos PDF desde cero o a partir de plantillas, editar PDF existentes y convertirlos a otros formatos compatibles. También puede realizar tareas como descifrar, fusionar y manipular archivos PDF directamente a través de la API REST de .NET.
Ahora, para empezar, necesitamos instalar el SDK en nuestro proyecto .NET.
NuGet\Install-Package Aspose.Pdf-Cloud -Version 25.9.0
También necesitamos crear una cuenta gratuita en Cloud Dashboard y obtener nuestras credenciales de cliente personalizadas.
Realizar la conversión de PDF a texto en C#
Por favor, siga los pasos mencionados a continuación para extraer el texto del archivo PDF usando C# .NET.
PdfApi pdfApi = new PdfApi(clientSecret, clientID);
Cree un objeto de la clase PdfApi
donde pasamos las credenciales del cliente obtenidas anteriormente como argumentos.
String inputFile = "sourceFile.pdf";
var sourceFile = System.IO.File.OpenRead(inputFile);
pdfApi.UploadFile("sourceFile.pdf", sourceFile);
Leer el PDF de la unidad local y subirlo al almacenamiento en la nube usando el método UploadFile(...)
.
TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);
Necesitamos especificar la región en el archivo PDF de donde necesitamos extraer el contenido de texto utilizando el método GetText(...)
.
for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
// write text content in console
Console.WriteLine(response.TextOccurrences.List[counter].Text);
}
Una vez que se ha extraído el contenido del texto, podemos o guardarlo en el disco local o imprimirlo en la consola.
// Para más ejemplos, por favor visita https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-dotnet
// Obtén credenciales de cliente de https://dashboard.aspose.cloud/
string clientSecret = "XXXXXXXXX";
string clientID = "XXXXXX-XXXXXXX-be35-ff5c3a6aa4a2";
// crear un objeto de PdfApi pasando las credenciales del cliente como argumentos
PdfApi pdfApi = new PdfApi(clientSecret, clientID);
// Input PDF file name
String inputFile = "input.pdf";
// Cargue el archivo PDF en una instancia de flujo.
var sourceFile = OpenRead(inputFile);
// Sube el archivo PDF a la nube.
pdfApi.UploadFile("inputPDF.pdf", sourceFile);
// X-coordenada de la esquina inferior izquierda
Double LLX = 200.0;
// Y - coordenada de la esquina inferior izquierda.
Double LLY = 200.0;
// X - coordenada de la esquina superior derecha.
Double URX = 600.0;
// Y - coordenada de la esquina superior derecha.
Double URY = 650.0;
// Llama a la API para extraer texto de las coordenadas especificadas.
TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);
// Ahora itera a través de cada ocurrencia de texto y imprime en la consola.
// Alternativamente, también podemos guardar la salida directamente en un archivo .txt.
for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
// write text content in console
Console.WriteLine(response.TextOccurrences.List[counter].Text);
}
Extraer texto de un PDF usando cURL
Aparte de usar fragmentos de código .NET o Java, también puedes extraer texto de archivos PDF usando Aspose.PDF Cloud a través de comandos cURL. Así que en este enfoque, los requisitos previos son generar un token de acceso JWT (basado en tus credenciales de cliente), que se puede obtener usando el siguiente comando.
Paso 1. - Obtén el token JWTAccess:
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=XXXXX-XXXXX-XXXXXX-ff5c3a6aa4a2&client_secret=XXXXXXXXXXXX" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
Paso 1. - Extraer texto de un archivo PDF:
curl -v "https://api.aspose.cloud/v3.0/pdf/{inputPDF}/text?splitRects=true&LLX=10&LLY=10&URX=800&URY=800" \
-X GET \
-H "accept: application/json" \
-H "authorization: Bearer {Access_Token}" \
-o "extractedContent.txt"
- Una vez que el comando se ejecuta con éxito, el texto de la región rectangular especificada se extrae en un archivo de texto.
Free PDF Parser App
Si estás buscando probar las capacidades de la API sin ninguna codificación o comandos cURL, entonces intenta usar nuestra aplicación [Free PDF Parser] construida sobre .NET REST APIs.

Comentarios finales
En este artículo, hemos aprendido los detalles sobre cómo integrar Aspose.PDF Cloud SDK para .NET en nuestro proyecto .NET para propósitos de extracción de texto y al mismo tiempo, hemos explorado la opción de usar comandos cURL para realizar la extracción de texto de PDF a través de la interfaz de línea de comandos. Así que, ya sea que su objetivo sea el análisis de datos, el aprendizaje automático u otros propósitos de automatización, el SDK le brinda herramientas confiables para manejar el contenido PDF de manera eficiente. ¡Ponga estas habilidades en práctica y optimice su manejo de PDF como un profesional!
Material de Lectura
- Documentación del Producto
- Código fuente de GitHub
- Referencia de API
- Soporte de Producto Gratuito
- Prueba gratuita
Artículos relacionados
También recomendamos visitar los siguientes enlaces para aprender más sobre: