pagkuha sa teksto gikan sa PDF

Kuhaa ang Teksto gikan sa PDF sa Java

Kitang tanan nahibalo nga ang PDF nga mga file maoy usa sa labing importante ug kaylap nga gigamit nga digital nga mga format nga gigamit sa pagpresentar ug pagbayloay sa mga dokumento nga kasaligan, gawasnon sa software, hardware, o operating system. Bisan pa, sa pipila ka mga senaryo, mahimo kaming interesado nga makakuha usa ka kinutlo gikan sa daghang mga file sa PDF. O, mahimo nga kinahanglan namon nga i-save ang PDF sa Text online. Mao nga sa kini nga artikulo, susihon namon ang mga detalye kung giunsa paghimo ang PDF to Text converter gamit ang Java REST API.

PDF Generator API

Kuhaa ang leverage aron makamugna og PDF nga mga dokumento gamit ang mga templates o gikan sa scratch gamit ang among REST API. Sa samang higayon, ang API makapahimo usab kanimo sa pag-edit ingon man usab sa pagbag-o sa mga PDF nga mga file ngadto sa ubang gisuportahan nga mga format. Mahimo usab nimo makuha ang mga benepisyo sa pagkuha sa teksto gikan sa PDF, pag-decrypting ug paghiusa sa mga file nga PDF gamit ang Java Cloud SDK. Karon, aron magamit ang Aspose.PDF Cloud SDK para sa Java, kinahanglan namon nga idugang ang reperensiya niini sa among aplikasyon sa Java pinaagi sa paglakip sa mosunod nga mga detalye sa pom.xml (maven build type project).

<repositories> 
    <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>http://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-cloud-pdf</artifactId>
        <version>21.11.0</version>
        <scope>compile</scope>
    </dependency>
</dependencies>

Pagkahuman sa pag-install, kinahanglan namon nga maghimo usa ka libre nga account sa Cloud Dashboard ug makakuha mga personal nga kredensyal sa kliyente.

Kuhaa ang Teksto gikan sa PDF gamit ang Java

Atong susihon ang mga detalye aron makuha ang teksto gikan sa PDF gamit ang Java cloud SDK. Niini nga pananglitan, atong gamiton ang mosunod nga input PdfWithTable.pdf file.

pdf sa text ocr

Hulagway 1: - Pag-input nga file para sa PDF ngadto sa Text extraction.

pdf sa text ocr

Hulagway 2: - Pagkuha sa teksto gikan sa preview sa PDF

// alang sa dugang nga mga pananglitan, palihug bisitaha ang https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-java/tree/master/Examples/src/main/java/com/aspose/asposecloudpdf/examples

try
    {
    // Pagkuha ClientID ug ClientSecret gikan sa https://dashboard.aspose.cloud/
    String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
    String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
		    
    // paghimo usa ka pananglitan sa PdfApi
    PdfApi pdfApi = new PdfApi(clientSecret,clientId);
    // ngalan sa input PDF nga dokumento
    String name = "PdfWithTable.pdf";
		        
    // basaha ang sulod sa input PDF file
    File file = new File(name); 
    // i-upload ang PDF sa cloud storage
    pdfApi.uploadFile("input.pdf", file, null);
		        
    // X-coordinate sa ubos-wala nga suok
    Double LLX = 500.0;
    // Y - coordinate sa ubos nga wala nga suok.
    Double LLY = 500.0;
    // X - coordinate sa ibabaw nga tuo nga suok.
    Double URX = 800.0;
    // Y - coordinate sa ibabaw nga tuo nga suok.
    Double URY = 800.0;
			       
    // Tawga ang API aron I-convert ang PDF sa Text
    TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);    
		    
    // Pagtabok pinaagi sa tagsa-tagsa nga Text Occurrence
    for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
    {
        // pagsulat sulod sa teksto sa console
        System.out.println(response.getTextOccurrences().getList().get(counter).getText());
    }
		  
    System.out.println("Extract Text from PDF successful !");
    }catch(Exception ex)
    {
        System.out.println(ex);
    }

Karon atong sulayan nga masabtan ang gipiho nga snippet sa code sa ibabaw:

PdfApi pdfApi = new PdfApi(clientSecret,clientId);

Paghimo usa ka pananglitan sa PdfApi samtang gipasa ang mga personal nga kredensyal ingon mga argumento.

File file = new File(name); 
pdfApi.uploadFile("input.pdf", file, null);

Basaha ang input PDF gamit ang File object ug i-upload kini sa cloud storage gamit ang uploadFile(…) nga pamaagi sa PdfAPi class. Palihug timan-i nga ang file gi-upload sa ngalan nga gigamit sa uploadFile nga pamaagi.

TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);    

Karon tawga ang getText(..) nga pamaagi diin atong ipiho ang ngalan sa input nga PDF file, rectangular nga dimensyon sa panid diin kinahanglan natong kuhaon ang textual content ug, ibalik ang nakuha nga content ngadto sa TextRectsResponse object.

response.getTextOccurrences().getList().get(counter).getText()

Sa katapusan, aron ma-print ang nakuha nga sulud sa teksto, usbon namon ang tanan nga TextOccurances ug ipakita kini sa console.

PDF ngadto sa Teksto gamit ang cURL Commands

Gawas sa Java code snippet, mahimo usab namon nga himuon ang pdftotext nga operasyon gamit ang mga cURL nga mando. Karon, usa sa gikinahanglan alang niini nga pamaagi mao ang pagmugna og JWT access token (base sa mga kredensyal sa kliyente) gamit ang mosunod nga sugo.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Kung mabuhat na ang JWT, palihug ipatuman ang mosunud nga mando aron makuha ang teksto gikan sa PDF file nga magamit na sa pagtipig sa panganod.

curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>"

Dali nga Tip

Pagpangita alang sa PDF sa Text nga libre nga App! Palihug sulayi gamit ang among PDF Parser.

Panapos nga mga Pulong

Sa konklusyon, ang pagkuha sa teksto gikan sa mga file nga PDF gamit ang Java mahimong usa ka kusgan nga solusyon alang sa mga nagtinguha nga awtomatiko ang ilang pagproseso sa datos ug mga kinahanglanon sa pagtuki. Uban sa tabang niini nga giya, ikaw karon adunay usa ka lig-on nga pundasyon sa pagtukod ug sa dali nga pagpatuman sa imong kaugalingon nga Java-based nga solusyon alang sa text extraction gikan sa PDF nga mga dokumento. Kung nangita ka ug teksto para sa pagtuki sa datos, pagkat-on sa makina, o bisan unsang uban pang katuyoan, ang Java naghatag usa ka dali ug kasaligan nga plataporma alang sa imong mga panginahanglanon. Busa padayon ug sulayi ang imong bag-ong nakuha nga kahanas!

Kung interesado ka nga mag-usisa sa uban pang makapahinam nga mga bahin nga gitanyag sa API, palihug susiha ang Dokumentasyon sa Produkto. Katapusan, kung makasugat ka og bisan unsang isyu samtang naggamit sa API, o adunay ka may kalabutan nga pangutana, palihug ayaw pagduhaduha sa pagkontak kanamo pinaagi sa libre Product Support Forum.

May Kalabutan nga mga Artikulo

Palihug bisitaha ang mosunud nga mga link aron mahibal-an ang dugang bahin sa: