A PDF fájl általában szövegből, képből, címsorból, megjegyzésekből és egyéb elemekből áll. És mivel ez a formátum megőrzi a dokumentum elrendezését a különböző platformokon (asztali / mobil stb.), ezért széles körben használják az információk interneten keresztüli megosztására. Előfordulhat azonban, hogy további feldolgozás céljából ki kell bontakoznunk a PDF-dokumentum szöveges tartalmából. Tehát ebben a cikkben megvitatjuk, hogyan lehet szöveget kivonni a PDF-ből a Java Cloud SDK használatával. A művelet befejezése után a kimenet TXT formátumban kerül mentésre.
- PDF-ből TXT-be konvertáló API
- PDF szöveggé Java nyelven
- Szöveg kibontása PDF-ből a cURL parancsokkal
PDF-ből TXT-be konvertáló API
Az Aspose.PDF Cloud SDK for Java a díjnyertes REST API-megoldásunk, amely lehetőséget kínál PDF-ek létrehozására, szerkesztésére és konvertálására JPG, XPS, HTML, DOCX és számos más támogatott formátumba. A pdf-szövegfelismerési képességek Java alkalmazásban való megvalósítása érdekében kérjük, adja hozzá a következő részleteket a maven build típusú projekt pom.xml fájljához.
<repositories>
<repository>
<id>aspose-cloud</id>
<name>artifact.aspose-cloud-releases</name>
<url>http://artifact.aspose.cloud/repo</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf-cloud</artifactId>
<version>21.11.0</version>
</dependency>
</dependencies>
Az SDK telepítése után a következő fontos lépés egy ingyenes fiók létrehozása Aspose Cloud felett. Ezért kérjük, jelentkezzen be az újonnan létrehozott fiókkal, és keresse meg/hozza létre az ügyfél-azonosítót és az ügyféltitkot a Cloud Dashboard oldalon. Ezeket a részleteket a következő szakaszokban kell megadni.
PDF szöveggé Java nyelven
Kérjük, kövesse az alábbi lépéseket a PDF szöveggé konvertálásához a Java Cloud SDK használatával. Tehát a sikeres átalakítás után az eredményül kapott TXT-fájl felhőtárhelyre kerül mentésre.
- Először létre kell hoznunk egy PdfApi objektumot, miközben argumentumként megadjuk a ClientID-t és a Client secret-et
- Másodszor töltse be a bemeneti PDF-fájlt a Fájlpéldány segítségével
- Töltse fel a bemeneti PDF-fájlt a felhőtárhelyre az uploadFile(…) módszerrel
- Hozzon létre Integer változót, amely megadja a PDF oldalszámát a szövegkivonathoz, és dupla példányokat, amelyek jelzik az oldal téglalap alakú régióját, ahonnan ki kell bontani a szöveges tartalmat
- Végül hívja meg a getPageText(…) metódust a szöveges tartalom lekéréséhez a bemeneti PDF-ből
try
{
// Szerezze be a ClientID-t és a ClientSecret-et a https://dashboard.aspose.cloud/ webhelyről
String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
// hozzon létre egy PdfApi példányt
PdfApi pdfApi = new PdfApi(clientSecret,clientId);
// a bemeneti PDF dokumentum neve
String inputFile = "marketing.pdf";
// olvassa el a bemeneti PDF-fájl tartalmát
File file = new File("//Users//"+inputFile);
// PDF feltöltése felhőtárhelyre
pdfApi.uploadFile("input.pdf", file, null);
// a PDF egy adott oldala a konvertáláshoz
int pageNumber =1;
// A bal alsó sarok X-koordinátája
Double LLX = 0.0;
// Y - a bal alsó sarok koordinátája.
Double LLY = 0.0;
// X - a jobb felső sarok koordinátája.
Double URX = 800.0;
// Y - a jobb felső sarok koordinátája.
Double URY = 800.0;
// hívja az API-t a PDF szöveggé konvertálásához
TextRectsResponse response = pdfApi.getPageText(inputFile, pageNumber, LLX, LLY, URX, URY, null, null, true, null, "default");
// eredő TXT fájlpéldány
FileWriter myWriter = new FileWriter("filename.txt");
// Most léptesse át az egyes szöveges előfordulásokat, és kapja meg a nyomtatási eredményt a konzolon
for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
{
// szöveges tartalom írása TXT fájlba
myWriter.write(response.getTextOccurrences().getList().get(counter).getText());
}
// zárja be a TXT kezelőt
myWriter.close();
System.out.println("Text successfully extracted from PDF !");
}catch(Exception ex)
{
System.out.println(ex);
}
A fenti példában használt PDF-minta letölthető a marketing.pdf és az extracted.txt oldalról.
Szöveg kibontása PDF-ből a cURL parancsokkal
A REST API-k könnyen elérhetők cURL-parancsokkal, ezért ebben a részben azt a lehetőséget vizsgáljuk meg, hogyan bonthatunk ki szöveges tartalmat PDF-ből cURL-parancsok segítségével. Tehát előfeltételként először létre kell hoznunk egy JWT hozzáférési tokent (az ügyfél hitelesítő adatai alapján), miközben végrehajtjuk a következő parancsot.
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
Miután megvan a JWT token, a következő parancsot kell végrehajtanunk a PDF-dokumentum összes szöveges előfordulásának kinyeréséhez.
curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H "accept: application/json" \
-H "authorization: Bearer <JWT Token>"
Következtetés
Ez a cikk a PDF TXT formátumba konvertálásának részleteit ismerteti a Java Cloud SDK használatával. Ezzel egyidejűleg megvizsgáltuk a PDF-ből a szöveg cURL-parancsok segítségével történő kinyerésének lehetőségeit is. Így a több PDF-oldal közötti átjárás rugalmasságával szabályozhatóvá válik a tartalom kinyerésének helye. Erősen javasoljuk, hogy fedezze fel a Dokumentáció terméket, hogy többet tudjon meg a Java Cloud API által kínált egyéb izgalmas funkciókról. Továbbá, mivel minden Cloud SDK-nk MIT-licenc alatt van közzétéve, érdemes lehet letölteni a teljes forráskódot a GitHub oldalról, és az igényei szerint módosítani. Bármilyen probléma esetén megfontolhatja, hogy felkeressen minket a gyors megoldás érdekében az ingyenes terméktámogatási fórumon.
kapcsolódó cikkek
Kérjük, látogasson el az alábbi linkekre, ha többet szeretne megtudni erről: