PDF a TXT

Convierta PDF a TXT en línea en Java

El archivo PDF es uno de los formatos más utilizados para compartir datos e información en Internet. Sin embargo, a veces contienen contenido usando fuentes personalizadas y el tamaño del archivo resultante puede aumentar. Además, es posible que tengamos el requisito de extraer el contenido textual para su posterior procesamiento, por lo que en este escenario, la conversión de PDF a texto es una de las soluciones viables. En este artículo, vamos a discutir los detalles sobre cómo podemos convertir PDF a formato TXT.

API de conversión de PDF a texto

Aspose.Words Cloud SDK for Java es una solución líder para el procesamiento de documentos de Word. Es una solución increíble que brinda la capacidad de crear, editar y transformar una variedad de archivos a DOC, HTML, JPEG y varios otros formatos compatibles. Además de los documentos de Word, también brinda soporte para cargar archivos PDF y guardar la salida en TXT, HTML, XPS, TIFF, etc. Ahora en Para usar el SDK, agregue los siguientes detalles a su pom.xml de su tipo de compilación maven.

<repositories>
    <repository>
        <id>AsposeJavaAPI</id>
        <name>Aspose Java API</name>
        <url>https://repository.aspose.cloud/repo/</url>
    </repository>
</repositories>

<dependencies>
    <dependency>
		<groupId>com.aspose</groupId>
		<artifactId>aspose-words-cloud</artifactId>
		<version>22.5.0</version>
	</dependency>
</dependencies>

Ahora necesitamos crear una cuenta gratuita visitando Aspose.Cloud Dashboard. Simplemente regístrese con su cuenta existente de GitHub o Google, o haga clic en el botón Crear una nueva cuenta.

Convertir PDF a TXT en Java

Siga las instrucciones a continuación para cumplir con sus requisitos utilizando el fragmento de código de Java.

  • Primero, cree un objeto de WordsApi utilizando un ID de cliente y un secreto de cliente como parámetros
  • En segundo lugar, lea el contenido del archivo PDF desde la unidad local utilizando el objeto Archivo
  • En tercer lugar, lea el contenido del archivo PDF usando la instancia de UploadFileRequest
  • El siguiente paso es llamar al método uploadFile(…) para cargar el PDF al almacenamiento en la nube
  • Ahora, crea un objeto de GetDocumentWithFormatRequest(…) donde especificamos el formato de salida como formato TXT
  • Finalmente, llame al método getDocumentWithFormat(…) para convertir PDF a texto y guardar la salida en el almacenamiento en la nube.
// para obtener más ejemplos, visite https://github.com/aspose-words-cloud/aspose-words-cloud-java

try
    {
    // Obtenga ClientID y ClientSecret de https://dashboard.aspose.cloud/
    String clientId = "bbf94a2c-6d7e-4020-b4d2-b9809741374e";
    String clientSecret = "1c9379bb7d701c26cc87e741a29987bb";
  
    // crear un objeto de WordsApi
    // si baseUrl es nulo, WordsApi usa el valor predeterminado https://api.aspose.cloud
    WordsApi wordsApi = new WordsApi(clientId, clientSecret, null);

    // leer el contenido de PDF desde la unidad local
    File file = new File("c://input.pdf");
    
    // crear solicitud de carga de archivo
    UploadFileRequest uploadRequest = new UploadFileRequest(Files.readAllBytes(file.toPath()), "input.pdf", null);
    
    // subir archivo al almacenamiento en la nube
    wordsApi.uploadFile(uploadRequest);
        
    // crear objeto de solicitud de conversión de documento
    GetDocumentWithFormatRequest request = new GetDocumentWithFormatRequest("input.pdf", "PDF", "", "Internal","", "", "", "extracted.txt","");
        
    // Llame a la API para convertir PDF a texto en línea
    wordsApi.getDocumentWithFormat(request);
    
    System.out.println("PDF to TXT Conversion sucessfull !");
    }catch(Exception ex)
    {
        System.out.println(ex);
    }

Utilice el siguiente fragmento de código para cargar PDF desde la unidad local y guardarlo en formato TXT. Después de la conversión, el archivo resultante se guarda en el almacenamiento en la nube.

  • Primero, cree un objeto de WordsApi utilizando un ID de cliente y un secreto de cliente como parámetros
  • En segundo lugar, lea el contenido del archivo PDF desde la unidad local utilizando el objeto Archivo
  • En tercer lugar, cree un objeto de ConvertDocumentRequest (…) donde proporcionamos argumentos de objeto de archivo, TXT como formato resultante y ruta de salida del archivo TXT resultante
  • Finalmente, llame al método convertDocument(…) para convertir PDF a texto y guardar la salida en el almacenamiento en la nube
// para obtener más ejemplos, visite https://github.com/aspose-words-cloud/aspose-words-cloud-java

try
    {
    // Obtenga ClientID y ClientSecret de https://dashboard.aspose.cloud/
    String clientId = "bbf94a2c-6d7e-4020-b4d2-b9809741374e";
    String clientSecret = "1c9379bb7d701c26cc87e741a29987bb";
  
    // crear un objeto de WordsApi
    // si baseUrl es nulo, WordsApi usa el valor predeterminado https://api.aspose.cloud
    WordsApi wordsApi = new WordsApi(clientId, clientSecret, null);

    // leer el contenido de PDF desde la unidad local
    File file = new File("c://input.pdf");
           
    // crear objeto de solicitud de conversión de documento
    ConvertDocumentRequest request = new ConvertDocumentRequest(Files.readAllBytes(file.toPath()), "TXT", "Extracted.txt", null, null, null);
        
    // Llame a la API para convertir PDF a formato de texto
    wordsApi.convertDocument(request);
    
    System.out.println("PDF to TXT Conversion sucessfull !");
    }catch(Exception ex)
    {
        System.out.println(ex);
    }
PDF a texto

Imagen 1: - Vista previa de la conversión de PDF a texto en almacenamiento en la nube

PDF a TXT usando comandos cURL

En esta sección, vamos a realizar la conversión de PDF a texto usando los comandos cURL. Ahora, como requisito previo, debemos generar el token de acceso JWT en función de las credenciales del cliente mediante el siguiente comando.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bbf94a2c-6d7e-4020-b4d2-b9809741374e&client_secret=1c9379bb7d701c26cc87e741a29987bb" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Ahora, ejecute el siguiente comando para cargar el archivo PDF en el almacenamiento en la nube.

curl -v -X PUT "https://api.aspose.cloud/v4.0/words/storage/file/input.pdf" \
-H  "accept: application/json" \
-H  "Authorization: Bearer <JWT Token>" \
-H  "Content-Type: multipart/form-data" \
-d {"fileContent":{}}

Finalmente, ejecute el siguiente comando para convertir PDF a formato de texto.

curl -v -X GET "https://api.aspose.cloud/v4.0/words/Quick%20Start%20Guide-%20Inventory%20Software%20Suite.pdf?format=TXT&outPath=extracted.txt" \
-H  "accept: application/octet-stream" \
-H  "Authorization: Bearer <JWT Token>"

Conclusión

Este artículo explica los detalles sobre la conversión de PDF a texto usando un fragmento de código Java. Del mismo modo, también hemos aprendido los pasos para convertir PDF a TXT usando los comandos cURL. Para un mejor aprendizaje, puede explorar la API usando Swagger UI dentro del navegador web.

Si tiene alguna consulta relacionada o encuentra algún problema, no dude en comunicarse con nosotros a través del [foro de soporte técnico] gratuito 16.

Artículos relacionados

Recomendamos encarecidamente leer los siguientes artículos para obtener más información sobre: