Un fișier PDF este de obicei format din text, imagine, titlu, adnotări și alte elemente. Și, deoarece acest format păstrează aspectul documentului pe platforme (desktop / mobil etc), este utilizat pe scară largă pentru a partaja informații pe internet. Cu toate acestea, este posibil să avem o cerință de a extrage conținutul textual al documentului PDF pentru procesare ulterioară. Deci, în acest articol, vom discuta detaliile despre cum să extrageți text din PDF folosind Java Cloud SDK. Odată ce operația este finalizată, rezultatul este salvat în format TXT.
API-ul de conversie PDF în TXT
Aspose.PDF Cloud SDK pentru Java este soluția noastră premiată REST API care oferă capabilități de a crea, edita și converti PDF în JPG, XPS, HTML, DOCX și o varietate de alte formate acceptate. Acum, pentru a implementa capabilitățile de recunoaștere a textului pdf în aplicația Java, vă rugăm să adăugați următoarele detalii în pom.xml ale proiectului de tip build Maven.
<repositories>
<repository>
<id>aspose-cloud</id>
<name>artifact.aspose-cloud-releases</name>
<url>https://artifact.aspose.cloud/repo</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf-cloud</artifactId>
<version>21.11.0</version>
</dependency>
</dependencies>
După instalarea SDK-ului, următorul pas important este crearea unui cont gratuit pe Aspose Cloud. Așadar, vă rugăm să vă conectați folosind un cont nou creat și să căutați/creați ID-ul clientului și Secretul clientului la Cloud Dashboard. Aceste detalii sunt necesare în secțiunile următoare.
PDF în text în Java
Vă rugăm să urmați pașii de mai jos pentru a efectua conversia PDF în Text utilizând Java Cloud SDK. Deci, după o conversie reușită, fișierul TXT rezultat este salvat în stocarea în cloud.
- Mai întâi trebuie să creăm un obiect PdfApi în timp ce furnizăm ClientID și Client secret ca argumente
- În al doilea rând, încărcați fișierul PDF de intrare utilizând instanța Fișier
- Încărcați PDF-ul de intrare în stocarea în cloud utilizând metoda uploadFile(…).
- Creați variabilă întreagă care specifică numărul paginii PDF pentru extragerea textului și instanțele duble care indică regiunea dreptunghiulară a paginii din care trebuie să extragem conținutul textual
- În cele din urmă, apelați metoda getPageText(…) pentru a prelua conținutul textual din PDF de intrare
try
{
// Obțineți ClientID și ClientSecret de pe https://dashboard.aspose.cloud/
String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
// creați o instanță de PdfApi
PdfApi pdfApi = new PdfApi(clientSecret,clientId);
// numele documentului PDF de intrare
String inputFile = "marketing.pdf";
// citiți conținutul fișierului PDF de intrare
File file = new File("//Users//"+inputFile);
// încărcați PDF în stocarea în cloud
pdfApi.uploadFile("input.pdf", file, null);
// anumită pagină de PDF pentru conversie
int pageNumber =1;
// Coordonata X a colțului din stânga jos
Double LLX = 0.0;
// Y - coordonata colțului din stânga jos.
Double LLY = 0.0;
// X - coordonata colțului din dreapta sus.
Double URX = 800.0;
// Y - coordonata colțului din dreapta sus.
Double URY = 800.0;
// apelați API pentru a converti PDF în text
TextRectsResponse response = pdfApi.getPageText(inputFile, pageNumber, LLX, LLY, URX, URY, null, null, true, null, "default");
// instanța de fișier TXT rezultată
FileWriter myWriter = new FileWriter("filename.txt");
// Acum parcurgeți textul individual, obțineți rezultatul de tipărire în consolă
for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
{
// scrieți conținut text în fișierul TXT
myWriter.write(response.getTextOccurrences().getList().get(counter).getText());
}
// închideți handlerul TXT
myWriter.close();
System.out.println("Text successfully extracted from PDF !");
}catch(Exception ex)
{
System.out.println(ex);
}
Exemplul de fișier PDF folosit în exemplul de mai sus poate fi descărcat de pe marketing.pdf și extracted.txt
Extrageți text din PDF utilizând comenzile cURL
API-urile REST pot fi accesate cu ușurință prin comenzile cURL, așa că în această secțiune vom explora opțiunea despre cum putem extrage conținut textual din PDF folosind comenzile cURL. Deci, ca o cerință prealabilă, trebuie mai întâi să generăm un token de acces JWT (pe baza acreditărilor clientului) în timp ce executăm următoarea comandă.
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
Odată ce avem simbolul JWT, trebuie să executăm următoarea comandă pentru a extrage toate aparițiile textului din documentul PDF.
curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H "accept: application/json" \
-H "authorization: Bearer <JWT Token>"
Concluzie
Acest articol a explicat detaliile despre cum să convertiți PDF în TXT utilizând Java Cloud SDK. În același timp, am explorat și opțiunile pentru extragerea textului din PDF folosind comenzile cURL. Deci, cu flexibilitatea de a parcurge mai multe pagini PDF, obținem un control asupra unde să extragem conținutul. Vă recomandăm cu căldură să explorați produsul Documentație pentru a afla mai multe despre celelalte funcții interesante oferite de Java Cloud API. De asemenea, deoarece toate SDK-urile noastre Cloud sunt publicate sub licență MIT, puteți lua în considerare descărcarea codului sursă complet de pe GitHub și modificați-l conform cerințelor dvs. În cazul oricăror probleme, vă recomandăm să ne contactați pentru o rezolvare rapidă prin intermediul gratuit forumul de asistență pentru produse.
Articole similare
Vă rugăm să vizitați următoarele link-uri pentru a afla mai multe despre: