extraer texto pdf

Extraiga texto de PDF utilizando .NET REST API.

Los documentos PDF se han convertido en el estándar para compartir e intercambiar información entre diversas plataformas y dispositivos. Si bien los archivos PDF ofrecen un formato seguro y consistente, extraer datos esenciales de estos documentos puede ser una tarea desalentadora, especialmente cuando se trata de grandes volúmenes de información. Ya sea que necesite extraer texto para análisis, ingreso de datos o manipulación de contenido, una solución de extracción de texto confiable y eficiente es crucial. En este artículo, profundizamos en el mundo de la extracción de texto de archivos PDF utilizando .NET REST API, impulsado por el robusto SDK de Aspose.PDF Cloud.

API REST para procesamiento de PDF

Aspose.PDF Cloud SDK para .NET es una API sólida y fácil de usar que simplifica la extracción de texto de archivos PDF. Una de las características destacadas de Aspose.PDF Cloud SDK para .NET es su capacidad para manejar estructuras PDF complejas y extraer texto con precisión de documentos con diversos diseños. Ya sea que el PDF contenga texto, imágenes, tablas u otros elementos complejos, la API puede navegar de manera inteligente a través del documento y recuperar el contenido del texto con precisión. Por lo tanto, sus potentes funciones, precisión y facilidad de integración lo convierten en una opción ideal para extraer datos textuales valiosos de documentos PDF dentro de sus aplicaciones .NET.

Ahora, para comenzar con esta característica, el primer paso es agregar la referencia de Cloud SDK en nuestra solución .NET. Entonces, busque Aspose.PDF-Cloud en el administrador de paquetes de NuGet y haga clic en el botón Agregar paquete. En segundo lugar, visite el panel de la nube y obtenga sus credenciales de cliente personalizadas.

Extraiga texto PDF usando C# .NET

En esta sección, exploraremos los detalles para extraer texto de PDF mediante programación.

// Para ejemplos completos y archivos de datos, vaya a 
https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-dotnet

// Obtenga credenciales de cliente desde https://dashboard.aspose.cloud/
string clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
string clientID = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";

// crear una instancia de PdfApi
PdfApi pdfApi = new PdfApi(clientSecret, clientID);

// Ingrese el nombre del archivo PDF
String inputFile = "Binder1-1.pdf";
// Leer el contenido del archivo PDF en la instancia de transmisión
var sourceFile = System.IO.File.OpenRead(inputFile);

// Cargue un archivo PDF al almacenamiento en la nube
pdfApi.UploadFile("inputPDF.pdf", sourceFile);

// Coordenada X de la esquina inferior izquierda
Double LLX = 500.0;
// Y: coordenada de la esquina inferior izquierda.
Double LLY = 500.0;
// X: coordenada de la esquina superior derecha.
Double URX = 800.0;
// Y: coordenada de la esquina superior derecha.
Double URY = 800.0;

// Llame a la API para extraer texto de ciertas coordenadas en un documento PDF
TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);

// Atravesar una aparición de texto individual
for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
    // escribir contenido de texto en la consola
    Console.WriteLine(response.TextOccurrences.List[counter].Text);
}
Extraer texto en pdf

Vista previa del texto extraído del documento PDF.

A continuación se detallan los detalles sobre el fragmento de código indicado anteriormente.

PdfApi pdfApi = new PdfApi(clientSecret, clientID);

En primer lugar, cree una instancia de la clase PdfApi donde pasemos las credenciales del cliente como argumentos.

String inputFile = "Binder1-1.pdf";
var sourceFile = System.IO.File.OpenRead(inputFile);

Cargue el contenido del archivo PDF de entrada para transmitir la instancia.

pdfApi.UploadFile("inputPDF.pdf", sourceFile);

Cargue el documento PDF al almacenamiento en la nube.

TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);

Llame a la API para extraer texto de un archivo PDF en determinadas coordenadas de página.

for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
    // write text content in console
    Console.WriteLine(response.TextOccurrences.List[counter].Text);
}

Recorra la lista que contiene apariciones de texto extraído e imprima las instancias de texto en la consola.

Analizar texto de PDF usando comandos cURL

Usando los comandos cURL en combinación con Aspose.PDF Cloud API, puede extraer sin esfuerzo contenido de texto de archivos PDF alojados en el almacenamiento en la nube. La API admite una variedad de parámetros para personalizar el proceso de extracción, lo que le permite especificar coordenadas y otras opciones para extraer texto con precisión.

El primer paso con este enfoque es generar un token de acceso JWT mientras se ejecuta el siguiente comando.

curl -v "https://api.aspose.cloud/connect/token" \
 -X POST \
 -d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
 -H "Content-Type: application/x-www-form-urlencoded" \
 -H "Accept: application/json"

Una vez que se haya generado el token JWT, ejecute el siguiente comando para extraer el texto del documento PDF.

curl -v "https://api.aspose.cloud/v3.0/pdf/{inputPDF}/text?splitRects=true&LLX=10&LLY=10&URX=800&URY=800" \
-X GET \
-H  "accept: application/json" \
-H  "authorization: Bearer {accessToken}" \
-o "extractedContent.txt"

Reemplace inputPDF con el nombre del documento PDF que ya está disponible en el almacenamiento en la nube y accessToken con el token JWT generado anteriormente.

Conclusión

En conclusión, tanto el SDK de Aspose.PDF Cloud para .NET como el método de comando cURL ofrecen soluciones eficientes y confiables para extraer texto de documentos PDF. El SDK de Aspose.PDF Cloud para .NET proporciona una API integral y fácil de usar para desarrolladores con una amplia gama de funciones, lo que la convierte en una opción poderosa para integrar la extracción de texto PDF en aplicaciones .NET. Por otro lado, el enfoque del comando cURL ofrece un método flexible e independiente de la plataforma para interactuar con la API de la nube Aspose.PDF, lo que la convierte en una excelente opción para los desarrolladores que trabajan en diferentes entornos y lenguajes de programación.

Enlaces útiles

Artículos relacionados

Recomendamos ampliamente visitar los siguientes blogs: