Prevodník PDF do TXT

Ako previesť PDF do TXT pomocou Java

Súbor PDF sa zvyčajne skladá z textu, obrázka, nadpisu, anotácií a ďalších prvkov. A keďže tento formát zachováva rozloženie dokumentu naprieč platformami (Desktop / Mobile atď.), je široko používaný na zdieľanie informácií cez internet. Môžeme však mať požiadavku na extrahovanie textového obsahu dokumentu PDF na ďalšie spracovanie. Takže v tomto článku budeme diskutovať o podrobnostiach, ako extrahovať text z PDF pomocou Java Cloud SDK. Po dokončení operácie sa výstup uloží vo formáte TXT.

Rozhranie API na konverziu PDF do TXT

Aspose.PDF Cloud SDK for Java je naše ocenené riešenie REST API, ktoré ponúka možnosti na vytváranie, úpravu a konverziu PDF do formátu JPG, XPS, HTML, DOCX a rôznych iných podporovaných formátov. Teraz, aby ste mohli implementovať možnosti rozpoznávania textu pdf v aplikácii Java, pridajte nasledujúce podrobnosti do pom.xml projektu typu zostavy maven.

<repositories> 
    <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>http://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-pdf-cloud</artifactId>
        <version>21.11.0</version>
    </dependency>
</dependencies>

Po inštalácii SDK je ďalším dôležitým krokom vytvorenie bezplatného účtu cez Aspose Cloud. Prihláste sa teda pomocou novo vytvoreného účtu a vyhľadajte/vytvorte ID klienta a tajný kľúč klienta na Cloud Dashboard. Tieto podrobnosti sú potrebné v nasledujúcich častiach.

PDF na text v jazyku Java

Ak chcete vykonať konverziu PDF na text pomocou Java Cloud SDK, postupujte podľa krokov uvedených nižšie. Takže po úspešnej konverzii sa výsledný súbor TXT uloží do cloudového úložiska.

  • Najprv musíme vytvoriť objekt PdfApi a zároveň poskytnúť ClientID a Client Secret ako argumenty
  • Po druhé, načítajte vstupný súbor PDF pomocou inštancie súboru
  • Nahrajte vstupný súbor PDF do cloudového úložiska pomocou metódy uploadFile(…).
  • Vytvorenie premennej Integer špecifikujúcej číslo strany PDF na extrakciu textu a dvojité inštancie označujúce obdĺžnikovú oblasť stránky, z ktorej potrebujeme extrahovať textový obsah
  • Nakoniec zavolajte metódu getPageText(…), aby ste získali textový obsah zo vstupného PDF
try
    {
    // Získajte ClientID a ClientSecret z https://dashboard.aspose.cloud/
    String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
    String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
	  
    // vytvorte inštanciu PdfApi
    PdfApi pdfApi = new PdfApi(clientSecret,clientId);

    // názov vstupného PDF dokumentu
    String inputFile = "marketing.pdf";

    // čítať obsah vstupného súboru PDF
    File file = new File("//Users//"+inputFile);
	    
    // nahrať PDF do cloudového úložiska
    pdfApi.uploadFile("input.pdf", file, null);

    // konkrétnu stránku PDF na konverziu
    int pageNumber =1;

    // X-ová súradnica ľavého dolného rohu
    Double LLX = 0.0;
    // Y - súradnica ľavého dolného rohu.
    Double LLY = 0.0;
    // X - súradnica pravého horného rohu.
    Double URX = 800.0;
    // Y - súradnica pravého horného rohu.
    Double URY = 800.0;
	       
    // volanie API na prevod PDF na text
    TextRectsResponse response = pdfApi.getPageText(inputFile, pageNumber, LLX, LLY, URX, URY, null, null, true, null, "default");	    
    
    // výsledná inštancia súboru TXT
    FileWriter myWriter = new FileWriter("filename.txt");
  
    // Teraz prejdite cez jednotlivé výskyty textu a získajte výsledok tlače v konzole
    for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
    {
        // zapisovať textový obsah do súboru TXT
	myWriter.write(response.getTextOccurrences().getList().get(counter).getText());
    }
  
    // zatvorte obslužný program TXT
    myWriter.close();
    
    System.out.println("Text successfully extracted from PDF !");
    }catch(Exception ex)
    {
	      System.out.println(ex);
    }
Previesť PDF do TXT

Obrázok1:- Ukážka prevodu PDF na TXT

Vzorový súbor PDF použitý vo vyššie uvedenom príklade si môžete stiahnuť z marketing.pdf a extracted.txt

Extrahujte text z PDF pomocou príkazov cURL

Rozhrania REST API sú ľahko dostupné prostredníctvom príkazov cURL, takže v tejto časti preskúmame možnosť, ako môžeme extrahovať textový obsah z PDF pomocou príkazov cURL. Takže ako nevyhnutnú podmienku musíme najprv vygenerovať prístupový token JWT (na základe poverení klienta) pri vykonávaní nasledujúceho príkazu.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Keď máme token JWT, musíme vykonať nasledujúci príkaz na extrahovanie všetkých výskytov textu v dokumente PDF.

curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>"

Záver

Tento článok vysvetľuje podrobnosti o tom, ako previesť PDF na TXT pomocou Java Cloud SDK. Zároveň sme tiež preskúmali možnosti extrahovania textu z PDF pomocou príkazov cURL. Takže vďaka flexibilite prechádzania medzi viacerými stránkami PDF získame kontrolu nad tým, kde sa má obsah extrahovať. Dôrazne vám odporúčame preskúmať produkt Dokumentácia a dozvedieť sa viac o ďalších zaujímavých funkciách, ktoré ponúka Java Cloud API. Keďže všetky naše cloudové súpravy SDK sú publikované pod licenciou MIT, môžete zvážiť stiahnutie úplného zdrojového kódu z GitHub a jeho úpravu podľa vašich požiadaviek. V prípade akýchkoľvek problémov môžete zvážiť oslovenie nás, aby sme ich rýchlo vyriešili prostredníctvom bezplatného fóra podpory produktov.

Súvisiace články

Ak chcete získať viac informácií, navštívte nasledujúce odkazy: