Converteer PDF naar TXT met Java

PDF naar TXT-converter — Hoe PDF naar TXT te converteren met Java

Een PDF-bestand bestaat meestal uit tekst, afbeelding, koptekst, annotaties en andere elementen. En aangezien dit formaat de documentlay-out op verschillende platforms (desktop / mobiel, enz.) Bewaart, wordt het daarom veel gebruikt om informatie via internet te delen. Het is echter mogelijk dat we de tekstuele inhoud van een PDF-document moeten extraheren voor verdere verwerking. Dus in dit artikel gaan we de details bespreken over het extraheren van tekst uit PDF met behulp van Java Cloud SDK. Zodra de bewerking is voltooid, wordt de uitvoer opgeslagen in TXT-indeling.

PDF naar TXT-conversie-API
PDF naar tekst in Java
Extraheer tekst uit PDF met behulp van cURL-opdrachten

PDF naar TXT-conversie-API

Aspose.PDF Cloud SDK voor Java is onze bekroonde REST API-oplossing die de mogelijkheid biedt om PDF’s te maken, te bewerken en te converteren naar JPG, XPS, HTML, DOCX en verschillende andere ondersteunde formaten. Om de pdf-tekstherkenningsmogelijkheden in de Java-toepassing te implementeren, voegt u de volgende details toe aan pom.xml van het maven build-type project.

<repositories> 
    <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>http://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-pdf-cloud</artifactId>
        <version>21.11.0</version>
    </dependency>
</dependencies>

Na de SDK-installatie is de volgende belangrijke stap het aanmaken van een gratis account via Aspose Cloud. Log dus in met een nieuw aangemaakt account en zoek/maak Client ID en Client Secret op bij Cloud Dashboard. Deze details zijn vereist in volgende secties.

PDF naar tekst in Java

Volg de onderstaande stappen om de conversie van PDF naar tekst uit te voeren met Java Cloud SDK. Dus na een succesvolle conversie wordt het resulterende TXT-bestand opgeslagen in cloudopslag.

Eerst moeten we een PdfApi-object maken terwijl we ClientID en Client-geheim als argumenten opgeven
Ten tweede laadt u het ingevoerde PDF-bestand met behulp van File instance
Upload de ingevoerde PDF naar cloudopslag met behulp van de methode uploadFile(…).
Create Integer-variabele die het paginanummer van de PDF specificeert voor tekstextractie en dubbele instanties die het rechthoekige gedeelte van de pagina aangeven waaruit we de tekstuele inhoud moeten extraheren
Roep ten slotte de methode getPageText(…) aan om tekstuele inhoud op te halen uit de invoer-PDF

try
    {
    // Haal ClientID en ClientSecret op van https://dashboard.aspose.cloud/
    String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
    String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
	  
    // maak een instantie van PdfApi
    PdfApi pdfApi = new PdfApi(clientSecret,clientId);

    // naam van het ingevoerde PDF-document
    String inputFile = "marketing.pdf";

    // lees de inhoud van het ingevoerde PDF-bestand
    File file = new File("//Users//"+inputFile);
	    
    // upload PDF naar cloudopslag
    pdfApi.uploadFile("input.pdf", file, null);

    // specifieke pagina van PDF voor conversie
    int pageNumber =1;

    // X-coördinaat van linker benedenhoek
    Double LLX = 0.0;
    // Y - coördinaat van linkerbenedenhoek.
    Double LLY = 0.0;
    // X - coördinaat van rechterbovenhoek.
    Double URX = 800.0;
    // Y - coördinaat van de rechterbovenhoek.
    Double URY = 800.0;
	       
    // bel API om PDF naar tekst te converteren
    TextRectsResponse response = pdfApi.getPageText(inputFile, pageNumber, LLX, LLY, URX, URY, null, null, true, null, "default");	    
    
    // resulterende TXT-bestandsinstantie
    FileWriter myWriter = new FileWriter("filename.txt");
  
    // Doorloop nu de individuele tekstaanwezigheid om het afdrukresultaat in de console te krijgen
    for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
    {
        // schrijf tekstinhoud naar TXT-bestand
	myWriter.write(response.getTextOccurrences().getList().get(counter).getText());
    }
  
    // sluit de TXT-handler
    myWriter.close();
    
    System.out.println("Text successfully extracted from PDF !");
    }catch(Exception ex)
    {
	      System.out.println(ex);
    }

Converteer PDF naar TXT — Image1:- PDF naar TXT-conversievoorbeeld

Het voorbeeld-pdf-bestand dat in het bovenstaande voorbeeld wordt gebruikt, kan worden gedownload van marketing.pdf en extracted.txt

Extraheer tekst uit PDF met behulp van cURL-opdrachten

De REST API’s zijn eenvoudig toegankelijk via cURL-opdrachten, dus in deze sectie gaan we de mogelijkheid onderzoeken hoe we tekstuele inhoud uit PDF kunnen extraheren met behulp van cURL-opdrachten. Dus als eerste vereiste moeten we eerst een JWT-toegangstoken genereren (op basis van clientreferenties) terwijl we de volgende opdracht uitvoeren.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Zodra we het JWT-token hebben, moeten we de volgende opdracht uitvoeren om alle tekstvermeldingen in het PDF-document te extraheren.

curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>"

Conclusie

Dit artikel heeft de details uitgelegd over het converteren van PDF naar TXT met behulp van Java Cloud SDK. Tegelijkertijd hebben we ook de opties onderzocht voor het extraheren van tekst uit PDF met behulp van cURL-opdrachten. Dus met de flexibiliteit om tussen meerdere PDF-pagina’s te bladeren, krijgen we controle over waar de inhoud moet worden geëxtraheerd. We raden u ten zeerste aan om het product Documentatie te verkennen voor meer informatie over de andere opwindende functies die worden aangeboden door Java Cloud API. Aangezien al onze Cloud SDK’s onder een MIT-licentie worden gepubliceerd, kunt u overwegen de volledige broncode van GitHub te downloaden en deze naar wens aan te passen. In geval van problemen kunt u overwegen ons te benaderen voor een snelle oplossing via het gratis productondersteuningsforum.

gerelateerde artikelen

Bezoek de volgende links voor meer informatie over:

PDF naar TXT-conversie-API#

PDF naar tekst in Java#

Extraheer tekst uit PDF met behulp van cURL-opdrachten#

Conclusie#

gerelateerde artikelen#

PDF naar TXT-conversie-API

PDF naar tekst in Java

Extraheer tekst uit PDF met behulp van cURL-opdrachten

Conclusie

gerelateerde artikelen