PDF til TXT

Konverter PDF til TXT online i Java

Filen PDF er et af de udbredte formater til data- og informationsdeling over internettet. Men nogle gange indeholder de indhold ved hjælp af brugerdefinerede skrifttyper, og størrelsen på den resulterende fil kan blive øget. Desuden kan vi have et krav om at udtrække tekstindholdet til videre behandling, så i dette scenarie er konvertering af PDF til tekst en af de levedygtige løsninger. I denne artikel vil vi diskutere detaljerne om, hvordan vi kan konvertere PDF til TXT-format.

PDF til tekstkonverterings-API

Aspose.Words Cloud SDK til Java er førende løsning til Word-dokumentbehandling. Det er en fantastisk løsning, der giver mulighed for at oprette, redigere og transformere forskellige filer til DOC, HTML, JPEG og forskellige andre understøttede formater. Bortset fra Word-dokumenter giver den også støtte til at indlæse PDF-filer og gemme output til TXT, HTML, XPS, TIFF osv. For nu at bruge SDK, skal du tilføje følgende detaljer til din pom.xml af din maven-byggetype.

<repositories>
    <repository>
        <id>AsposeJavaAPI</id>
        <name>Aspose Java API</name>
        <url>https://repository.aspose.cloud/repo/</url>
    </repository>
</repositories>

<dependencies>
    <dependency>
		<groupId>com.aspose</groupId>
		<artifactId>aspose-words-cloud</artifactId>
		<version>22.5.0</version>
	</dependency>
</dependencies>

Nu skal vi oprette en gratis konto ved at besøge Aspose.Cloud dashboard. Du skal blot tilmelde dig med din eksisterende GitHub- eller Google-konto, eller klik på knappen Opret en ny konto.

Konverter PDF til TXT i Java

Følg venligst instruktionerne nedenfor for at opfylde dine krav ved hjælp af Java-kodestykke.

  • Først skal du oprette et objekt af WordsApi ved at bruge et klient-id og klienthemmelighed som parametre
  • For det andet skal du læse PDF-filens indhold fra det lokale drev ved hjælp af File-objektet
  • For det tredje skal du læse indholdet af PDF-filen ved hjælp af UploadFileRequest-instansen
  • Det næste trin er at kalde uploadFile(…)-metoden for at uploade PDF’en til skylageret
  • Opret nu et objekt af GetDocumentWithFormatRequest(…), hvor vi angiver outputformatet som TXT-format
  • Til sidst skal du kalde metoden getDocumentWithFormat(…) for at konvertere PDF til tekst og gemme outputtet i skylager.
// for flere eksempler, besøg venligst https://github.com/aspose-words-cloud/aspose-words-cloud-java

try
    {
    // Hent ClientID og ClientSecret fra https://dashboard.aspose.cloud/
    String clientId = "bbf94a2c-6d7e-4020-b4d2-b9809741374e";
    String clientSecret = "1c9379bb7d701c26cc87e741a29987bb";
  
    // oprette et objekt af WordsApi
    // hvis baseUrl er null, bruger WordsApi standard https://api.aspose.cloud
    WordsApi wordsApi = new WordsApi(clientId, clientSecret, null);

    // læse indholdet af PDF fra lokalt drev
    File file = new File("c://input.pdf");
    
    // oprette fil upload anmodning
    UploadFileRequest uploadRequest = new UploadFileRequest(Files.readAllBytes(file.toPath()), "input.pdf", null);
    
    // upload fil til skylager
    wordsApi.uploadFile(uploadRequest);
        
    // oprette dokumentkonverteringsanmodningsobjekt
    GetDocumentWithFormatRequest request = new GetDocumentWithFormatRequest("input.pdf", "PDF", "", "Internal","", "", "", "extracted.txt","");
        
    // Kald API for at konvertere PDF til tekst online
    wordsApi.getDocumentWithFormat(request);
    
    System.out.println("PDF to TXT Conversion sucessfull !");
    }catch(Exception ex)
    {
        System.out.println(ex);
    }

Brug venligst følgende kodestykke til at indlæse PDF fra det lokale drev og gemme i TXT-format. Efter konverteringen gemmes den resulterende fil i skylageret.

  • Først skal du oprette et objekt af WordsApi ved at bruge et klient-id og klienthemmelighed som parametre
  • For det andet skal du læse PDF-filens indhold fra det lokale drev ved hjælp af File-objektet
  • For det tredje skal du oprette et objekt af ConvertDocumentRequest(…), hvor vi giver argumenter for File-objekt, TXT som resulterende format og outputsti for resulterende TXT-fil
  • Til sidst skal du kalde metoden convertDocument(…) for at konvertere PDF til tekst og gemme outputtet i Cloud-lagring
// for flere eksempler, besøg venligst https://github.com/aspose-words-cloud/aspose-words-cloud-java

try
    {
    // Hent ClientID og ClientSecret fra https://dashboard.aspose.cloud/
    String clientId = "bbf94a2c-6d7e-4020-b4d2-b9809741374e";
    String clientSecret = "1c9379bb7d701c26cc87e741a29987bb";
  
    // oprette et objekt af WordsApi
    // hvis baseUrl er null, bruger WordsApi standard https://api.aspose.cloud
    WordsApi wordsApi = new WordsApi(clientId, clientSecret, null);

    // læse indholdet af PDF fra lokalt drev
    File file = new File("c://input.pdf");
           
    // oprette dokumentkonverteringsanmodningsobjekt
    ConvertDocumentRequest request = new ConvertDocumentRequest(Files.readAllBytes(file.toPath()), "TXT", "Extracted.txt", null, null, null);
        
    // Kald API for at konvertere PDF til tekstformat
    wordsApi.convertDocument(request);
    
    System.out.println("PDF to TXT Conversion sucessfull !");
    }catch(Exception ex)
    {
        System.out.println(ex);
    }
PDF til tekst

Billede 1:- Forhåndsvisning af PDF til tekst-konvertering i skylager

PDF til TXT ved hjælp af cURL-kommandoer

I dette afsnit skal vi udføre PDF til tekst-konvertering ved hjælp af cURL-kommandoer. Nu som en forudsætning er vi nødt til at generere JWT-adgangstokenet baseret på klientlegitimationsoplysninger ved hjælp af følgende kommando.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bbf94a2c-6d7e-4020-b4d2-b9809741374e&client_secret=1c9379bb7d701c26cc87e741a29987bb" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Udfør nu følgende kommando for at uploade PDF-filen til skylageret.

curl -v -X PUT "https://api.aspose.cloud/v4.0/words/storage/file/input.pdf" \
-H  "accept: application/json" \
-H  "Authorization: Bearer <JWT Token>" \
-H  "Content-Type: multipart/form-data" \
-d {"fileContent":{}}

Til sidst skal du udføre følgende kommando for at konvertere PDF til tekstformat.

curl -v -X GET "https://api.aspose.cloud/v4.0/words/Quick%20Start%20Guide-%20Inventory%20Software%20Suite.pdf?format=TXT&outPath=extracted.txt" \
-H  "accept: application/octet-stream" \
-H  "Authorization: Bearer <JWT Token>"

Konklusion

Denne artikel forklarede detaljerne om konvertering af PDF til tekst ved hjælp af Java-kodestykke. På samme måde har vi også lært trinene til at konvertere PDF til TXT ved hjælp af cURL-kommandoer. For bedre læring kan du udforske API’et ved hjælp af Swagger UI i webbrowseren.

Skulle du have nogen relaterede forespørgsler, eller du støder på problemer, er du velkommen til at kontakte os via gratis teknisk supportforum.

Relaterede artikler

Vi anbefaler stærkt, at du gennemgår følgende artikler for at lære mere om: