Een PDF-bestand bestaat meestal uit tekst, afbeelding, koptekst, annotaties en andere elementen. En aangezien dit formaat de documentlay-out op verschillende platforms (desktop / mobiel, enz.) Bewaart, wordt het daarom veel gebruikt om informatie via internet te delen. Het is echter mogelijk dat we de tekstuele inhoud van een PDF-document moeten extraheren voor verdere verwerking. Dus in dit artikel gaan we de details bespreken over het extraheren van tekst uit PDF met behulp van Java Cloud SDK. Zodra de bewerking is voltooid, wordt de uitvoer opgeslagen in TXT-indeling.
- PDF naar TXT-conversie-API
- PDF naar tekst in Java
- Extraheer tekst uit PDF met behulp van cURL-opdrachten
PDF naar TXT-conversie-API
Aspose.PDF Cloud SDK voor Java is onze bekroonde REST API-oplossing die de mogelijkheid biedt om PDF’s te maken, te bewerken en te converteren naar JPG, XPS, HTML, DOCX en verschillende andere ondersteunde formaten. Om de pdf-tekstherkenningsmogelijkheden in de Java-toepassing te implementeren, voegt u de volgende details toe aan pom.xml van het maven build-type project.
<repositories>
<repository>
<id>aspose-cloud</id>
<name>artifact.aspose-cloud-releases</name>
<url>https://artifact.aspose.cloud/repo</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf-cloud</artifactId>
<version>21.11.0</version>
</dependency>
</dependencies>
Na de SDK-installatie is de volgende belangrijke stap het aanmaken van een gratis account via Aspose Cloud. Log dus in met een nieuw aangemaakt account en zoek/maak Client ID en Client Secret op bij Cloud Dashboard. Deze details zijn vereist in volgende secties.
PDF naar tekst in Java
Volg de onderstaande stappen om de conversie van PDF naar tekst uit te voeren met Java Cloud SDK. Dus na een succesvolle conversie wordt het resulterende TXT-bestand opgeslagen in cloudopslag.
- Eerst moeten we een PdfApi-object maken terwijl we ClientID en Client-geheim als argumenten opgeven
- Ten tweede laadt u het ingevoerde PDF-bestand met behulp van File instance
- Upload de ingevoerde PDF naar cloudopslag met behulp van de methode uploadFile(…).
- Create Integer-variabele die het paginanummer van de PDF specificeert voor tekstextractie en dubbele instanties die het rechthoekige gedeelte van de pagina aangeven waaruit we de tekstuele inhoud moeten extraheren
- Roep ten slotte de methode getPageText(…) aan om tekstuele inhoud op te halen uit de invoer-PDF
try
{
// Haal ClientID en ClientSecret op van https://dashboard.aspose.cloud/
String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
// maak een instantie van PdfApi
PdfApi pdfApi = new PdfApi(clientSecret,clientId);
// naam van het ingevoerde PDF-document
String inputFile = "marketing.pdf";
// lees de inhoud van het ingevoerde PDF-bestand
File file = new File("//Users//"+inputFile);
// upload PDF naar cloudopslag
pdfApi.uploadFile("input.pdf", file, null);
// specifieke pagina van PDF voor conversie
int pageNumber =1;
// X-coördinaat van linker benedenhoek
Double LLX = 0.0;
// Y - coördinaat van linkerbenedenhoek.
Double LLY = 0.0;
// X - coördinaat van rechterbovenhoek.
Double URX = 800.0;
// Y - coördinaat van de rechterbovenhoek.
Double URY = 800.0;
// bel API om PDF naar tekst te converteren
TextRectsResponse response = pdfApi.getPageText(inputFile, pageNumber, LLX, LLY, URX, URY, null, null, true, null, "default");
// resulterende TXT-bestandsinstantie
FileWriter myWriter = new FileWriter("filename.txt");
// Doorloop nu de individuele tekstaanwezigheid om het afdrukresultaat in de console te krijgen
for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
{
// schrijf tekstinhoud naar TXT-bestand
myWriter.write(response.getTextOccurrences().getList().get(counter).getText());
}
// sluit de TXT-handler
myWriter.close();
System.out.println("Text successfully extracted from PDF !");
}catch(Exception ex)
{
System.out.println(ex);
}
Het voorbeeld-pdf-bestand dat in het bovenstaande voorbeeld wordt gebruikt, kan worden gedownload van marketing.pdf en extracted.txt
Extraheer tekst uit PDF met behulp van cURL-opdrachten
De REST API’s zijn eenvoudig toegankelijk via cURL-opdrachten, dus in deze sectie gaan we de mogelijkheid onderzoeken hoe we tekstuele inhoud uit PDF kunnen extraheren met behulp van cURL-opdrachten. Dus als eerste vereiste moeten we eerst een JWT-toegangstoken genereren (op basis van clientreferenties) terwijl we de volgende opdracht uitvoeren.
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
Zodra we het JWT-token hebben, moeten we de volgende opdracht uitvoeren om alle tekstvermeldingen in het PDF-document te extraheren.
curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H "accept: application/json" \
-H "authorization: Bearer <JWT Token>"
Conclusie
Dit artikel heeft de details uitgelegd over het converteren van PDF naar TXT met behulp van Java Cloud SDK. Tegelijkertijd hebben we ook de opties onderzocht voor het extraheren van tekst uit PDF met behulp van cURL-opdrachten. Dus met de flexibiliteit om tussen meerdere PDF-pagina’s te bladeren, krijgen we controle over waar de inhoud moet worden geëxtraheerd. We raden u ten zeerste aan om het product Documentatie te verkennen voor meer informatie over de andere opwindende functies die worden aangeboden door Java Cloud API. Aangezien al onze Cloud SDK’s onder een MIT-licentie worden gepubliceerd, kunt u overwegen de volledige broncode van GitHub te downloaden en deze naar wens aan te passen. In geval van problemen kunt u overwegen ons te benaderen voor een snelle oplossing via het gratis productondersteuningsforum.
gerelateerde artikelen
Bezoek de volgende links voor meer informatie over: