PDF na TXT-omskakelaar

Hoe om PDF na TXT om te skakel met Java

’n PDF-lêer bestaan gewoonlik uit teks, beeld, opskrif, aantekeninge en ander elemente. En aangesien hierdie formaat die dokumentuitleg oor platforms (Desktop / Mobile ens) behou, word dit wyd gebruik om inligting oor die internet te deel. Ons kan egter ’n vereiste hê om tekstuele inhoud van PDF-dokument te onttrek vir verdere verwerking. So in hierdie artikel gaan ons die besonderhede bespreek oor hoe om teks uit PDF te onttrek met behulp van Java Cloud SDK. Sodra die bewerking voltooi is, word die afvoer in TXT-formaat gestoor.

PDF na TXT Conversion API

Aspose.PDF Wolk SDK vir Java is ons bekroonde REST API-oplossing wat die vermoë bied om PDF na JPG, XPS, HTML, DOCX en ’n verskeidenheid ander [ondersteunde formate] te skep, te redigeer en om te skakel. Nou om die pdf-teksherkenningsvermoëns in Java-toepassing te implementeer, voeg asseblief die volgende besonderhede by in pom.xml van maven bou tipe projek.

<repositories> 
    <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>https://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-pdf-cloud</artifactId>
        <version>21.11.0</version>
    </dependency>
</dependencies>

Na die SDK-installasie is die volgende belangrike stap die skep van ’n gratis rekening oor Aspose Cloud. Meld dus asseblief aan met nuutgeskepte rekening en soek/skep Kliënt-ID en Kliëntgeheim by Cloud Dashboard. Hierdie besonderhede word in die volgende afdelings vereis.

PDF na teks in Java

Volg asseblief die stappe hieronder om die PDF-na-teks-omskakeling uit te voer met Java Cloud SDK. Dus na suksesvolle omskakeling word die resulterende TXT-lêer in wolkberging gestoor.

  • Eerstens moet ons ’n PdfApi-objek skep terwyl ons KliëntID en Kliëntgeheim as argumente verskaf
  • Tweedens, laai die invoer-PDF-lêer met behulp van File-instansie
  • Laai die invoer-PDF op na wolkberging met die uploadFile(…)-metode
  • Skep heelgetalveranderlike wat bladsynommer van PDF spesifiseer vir teksonttrekking en dubbelgevalle wat die reghoekige area van bladsy aandui waaruit ons die tekstuele inhoud moet onttrek
  • Roep uiteindelik die getPageText(…)-metode om tekstuele inhoud van invoer-PDF af te haal
try
    {
    // Kry ClientID en ClientSecret vanaf https://dashboard.aspose.cloud/
    String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
    String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
	  
    // skep 'n instansie van PdfApi
    PdfApi pdfApi = new PdfApi(clientSecret,clientId);

    // naam van invoer PDF-dokument
    String inputFile = "marketing.pdf";

    // lees die inhoud van insette PDF-lêer
    File file = new File("//Users//"+inputFile);
	    
    // laai PDF op na wolkberging
    pdfApi.uploadFile("input.pdf", file, null);

    // spesifieke bladsy van PDF vir omskakeling
    int pageNumber =1;

    // X-koördinaat van onderste - linkerhoek
    Double LLX = 0.0;
    // Y - koördinaat van onderste linkerhoek.
    Double LLY = 0.0;
    // X - koördinaat van regter boonste hoek.
    Double URX = 800.0;
    // Y - koördinaat van regter boonste hoek.
    Double URY = 800.0;
	       
    // oproep API om PDF na teks om te skakel
    TextRectsResponse response = pdfApi.getPageText(inputFile, pageNumber, LLX, LLY, URX, URY, null, null, true, null, "default");	    
    
    // gevolglike TXT-lêer instansie
    FileWriter myWriter = new FileWriter("filename.txt");
  
    // Gaan nou deur individuele teksvoorkoms kry drukresultaat in konsole
    for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
    {
        // skryf teksinhoud na TXT-lêer
	myWriter.write(response.getTextOccurrences().getList().get(counter).getText());
    }
  
    // maak die TXT-hanteerder toe
    myWriter.close();
    
    System.out.println("Text successfully extracted from PDF !");
    }catch(Exception ex)
    {
	      System.out.println(ex);
    }
Skakel PDF na TXT om

Beeld 1: - PDF na TXT-omskakelingsvoorskou

Die voorbeeld PDF-lêer wat in die voorbeeld hierbo gebruik is, kan afgelaai word vanaf marketing.pdf en extracted.txt

Onttrek teks uit PDF met behulp van cURL-opdragte

Die REST API’s kan maklik verkry word via cURL-opdragte, so in hierdie afdeling gaan ons die opsie ondersoek hoe ons tekstuele inhoud uit PDF kan onttrek deur gebruik te maak van cURL-opdragte. Dus, as ’n voorvereiste, moet ons eers ’n JWT-toegangstoken genereer (gebaseer op kliëntgeloofsbriewe) terwyl ons die volgende opdrag uitvoer.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Sodra ons die JWT-token het, moet ons die volgende opdrag uitvoer om alle teksvoorkoms binne PDF-dokument te onttrek.

curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>"

Afsluiting

Hierdie artikel het die besonderhede verduidelik oor hoe om PDF na TXT om te skakel met Java Cloud SDK. Terselfdertyd het ons ook die opsies ondersoek om teks uit PDF te onttrek met behulp van cURL-opdragte. So met die buigsaamheid om tussen veelvuldige PDF-bladsye te blaai, kry ons ’n beheer oor waar om die inhoud te onttrek. Ons beveel sterk aan dat u die produk Dokumentasie verken om meer te wete te kom oor die ander opwindende kenmerke wat deur Java Cloud API aangebied word. Aangesien al ons Wolk-SDK’s onder MIT-lisensie gepubliseer word, kan u dit oorweeg om die volledige bronkode van GitHub af te laai en dit volgens u vereistes te verander. In die geval van enige probleme, kan u dit oorweeg om ons te nader vir ’n vinnige oplossing via gratis produkondersteuningsforum.

verwante artikels

Besoek asseblief die volgende skakels om meer te wete te kom oor: