PDF ngadto sa TXT Converter

Giunsa ang pag-convert sa PDF sa TXT gamit ang Java

Ang usa ka PDF nga payl kasagarang gilangkuban sa Text, Image, Heading, Anotasyon ug uban pang elemento. Ug ingon nga kini nga pormat nagpreserbar sa layout sa dokumento sa mga platform (Desktop / Mobile etc), busa kini kaylap nga gigamit sa pagpaambit sa kasayuran sa internet. Bisan pa, mahimo kaming adunay kinahanglanon aron makuha ang teksto nga sulud sa dokumento sa PDF alang sa dugang nga pagproseso. Mao nga sa kini nga artikulo, hisgutan namon ang mga detalye kung giunsa pagkuha ang teksto gikan sa PDF gamit ang Java Cloud SDK. Kung kompleto na ang operasyon, ang output ma-save sa TXT format.

PDF ngadto sa TXT Conversion API

Ang Aspose.PDF Cloud SDK para sa Java mao ang among award winning nga REST API nga solusyon nga nagtanyag sa mga kapabilidad sa paghimo, pag-edit ug pag-convert sa PDF ngadto sa JPG, XPS, HTML, DOCX ug lain-laing mga suportadong mga format. Karon aron mapatuman ang pdf text recognition capabilities sa Java application, palihog idugang ang mosunod nga mga detalye sa pom.xml sa maven build type project.

<repositories> 
    <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>http://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-pdf-cloud</artifactId>
        <version>21.11.0</version>
    </dependency>
</dependencies>

Pagkahuman sa pag-instalar sa SDK, ang sunod nga hinungdanon nga lakang mao ang paghimo sa usa ka libre nga account sa Aspose Cloud. Mao nga palihug pag-login gamit ang bag-ong nahimo nga account ug pagpangita / paghimo Client ID ug Client Secret sa Cloud Dashboard. Kini nga mga detalye gikinahanglan sa sunod nga mga seksyon.

PDF ngadto sa Teksto sa Java

Palihog sunda ang mga lakang nga gihatag sa ubos aron mahimo ang PDF to Text conversion gamit ang Java Cloud SDK. Busa human sa malampuson nga pagkakabig, ang resulta nga TXT file maluwas sa cloud storage.

  • Una kinahanglan namon nga maghimo usa ka butang nga PdfApi samtang naghatag ClientID ug sekreto sa Kliyente isip mga argumento
  • Ikaduha, i-load ang input PDF file gamit ang File instance
  • I-upload ang input PDF sa cloud storage gamit ang uploadFile(…) nga pamaagi
  • Paghimo Integer variable nga nagtino sa numero sa panid sa PDF alang sa pagkuha sa teksto ug Doble nga mga higayon nga nagpaila sa rectangular nga rehiyon sa panid diin kinahanglan naton makuha ang Textual nga sulud
  • Sa katapusan tawagan ang getPageText(…) nga pamaagi aron makuha ang teksto nga sulud gikan sa input nga PDF
try
    {
    // Pagkuha ClientID ug ClientSecret gikan sa https://dashboard.aspose.cloud/
    String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
    String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
	  
    // paghimo usa ka pananglitan sa PdfApi
    PdfApi pdfApi = new PdfApi(clientSecret,clientId);

    // ngalan sa input PDF nga dokumento
    String inputFile = "marketing.pdf";

    // basaha ang sulod sa input PDF file
    File file = new File("//Users//"+inputFile);
	    
    // i-upload ang PDF sa cloud storage
    pdfApi.uploadFile("input.pdf", file, null);

    // piho nga panid sa PDF alang sa pagkakabig
    int pageNumber =1;

    // X-coordinate sa ubos-wala nga suok
    Double LLX = 0.0;
    // Y - coordinate sa ubos nga wala nga suok.
    Double LLY = 0.0;
    // X - coordinate sa ibabaw nga tuo nga suok.
    Double URX = 800.0;
    // Y - coordinate sa ibabaw nga tuo nga suok.
    Double URY = 800.0;
	       
    // Tawga ang API aron I-convert ang PDF sa Text
    TextRectsResponse response = pdfApi.getPageText(inputFile, pageNumber, LLX, LLY, URX, URY, null, null, true, null, "default");	    
    
    // resulta nga TXT file nga pananglitan
    FileWriter myWriter = new FileWriter("filename.txt");
  
    // Karon pagtabok pinaagi sa tagsa-tagsa nga Text Occurance pagkuha print resulta sa console
    for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
    {
        // pagsulat sulod sa teksto sa TXT file
	myWriter.write(response.getTextOccurrences().getList().get(counter).getText());
    }
  
    // isara ang TXT handler
    myWriter.close();
    
    System.out.println("Text successfully extracted from PDF !");
    }catch(Exception ex)
    {
	      System.out.println(ex);
    }
I-convert ang PDF sa TXT

Hulagway1:- PDF ngadto sa TXT Conversion Preview

Ang sample nga PDF file nga gigamit sa ibabaw nga pananglitan mahimong ma-download gikan sa marketing.pdf ug extracted.txt

I-extract ang Text gikan sa PDF gamit ang cURL Commands

Ang mga REST API dali nga ma-access pinaagi sa cURL commands, mao nga sa kini nga seksyon, among susihon ang kapilian kung giunsa namon makuha ang Textual nga sulud gikan sa PDF gamit ang cURL nga mga mando. Mao nga ingon usa ka kinahanglanon, kinahanglan una namon nga maghimo usa ka token sa pag-access sa JWT (base sa mga kredensyal sa kliyente) samtang gipatuman ang mosunud nga mando.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Kung naa na kami sa JWT token, kinahanglan namon nga ipatuman ang mosunud nga mando aron makuha ang tanan nga mga panghitabo sa teksto sa sulod sa dokumento sa PDF.

curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>"

Konklusyon

Gipatin-aw sa kini nga artikulo ang mga detalye kung giunsa ang pag-convert sa PDF sa TXT gamit ang Java Cloud SDK. Sa parehas nga oras, gisuhid usab namon ang mga kapilian sa pagkuha sa Teksto gikan sa PDF gamit ang mga cURL nga mando. Mao nga sa pagka-flexible sa pagtabok tali sa daghang mga panid sa PDF, nakakuha kami usa ka kontrol kung diin makuha ang sulud. Girekomenda ka namon nga susihon ang produkto Dokumentasyon aron mahibal-an ang dugang bahin sa uban pang mga makapaikag nga bahin nga gitanyag sa Java Cloud API. Ingon usab, tungod kay ang tanan namon nga Cloud SDK gipatik sa ilawom sa lisensya sa MIT, aron mahimo nimong hunahunaon ang pag-download sa kompleto nga source code gikan sa GitHub ug usbon kini sumala sa imong mga kinahanglanon. Kung adunay bisan unsang mga isyu, mahimo nimong hunahunaon ang pagduol kanamo alang sa usa ka dali nga resolusyon pinaagi sa libre nga porum sa suporta sa produkto.

May Kalabutan nga mga Artikulo

Palihug bisitaha ang mosunud nga mga link aron mahibal-an ang dugang bahin sa: