kunin ang teksto mula sa PDF

I-extract ang Text mula sa PDF sa Java

Alam nating lahat na ang PDF na mga file ay isa sa pinakamahalaga at malawakang ginagamit na mga digital na format na ginagamit upang ipakita at makipagpalitan ng mga dokumento nang mapagkakatiwalaan, independyente sa software, hardware, o operating system. Gayunpaman, sa ilang mga sitwasyon, maaaring interesado kaming makakuha ng sipi mula sa malalaking PDF file. O, maaaring mayroon kaming kinakailangan upang i-save ang PDF sa Text online. Kaya sa artikulong ito, tutuklasin natin ang mga detalye kung paano bumuo ng PDF to Text converter gamit ang Java REST API.

PDF Generator API

Kunin ang leverage upang makabuo ng mga PDF na dokumento gamit ang mga template o mula sa simula gamit ang aming REST API. Kasabay nito, binibigyang-daan ka rin ng API na i-edit pati na rin ang pagbabago ng mga PDF file sa iba pang mga sinusuportahang format. Maaari mo ring kunin ang mga benepisyo ng pag-extract ng text mula sa PDF, pag-decryption at pagsasama-sama ng mga PDF file gamit ang Java Cloud SDK. Ngayon, para magamit ang Aspose.PDF Cloud SDK para sa Java, kailangan naming idagdag ang reference nito sa aming Java application sa pamamagitan ng pagsasama ng mga sumusunod na detalye sa pom.xml (maven build type project).

<repositories> 
    <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>https://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-cloud-pdf</artifactId>
        <version>21.11.0</version>
        <scope>compile</scope>
    </dependency>
</dependencies>

Pagkatapos ng pag-install, kailangan naming lumikha ng isang libreng account sa Cloud Dashboard at kumuha ng mga personalized na kredensyal ng kliyente.

I-extract ang Text mula sa PDF gamit ang Java

Tuklasin natin ang mga detalye para mag-extract ng text mula sa PDF gamit ang Java cloud SDK. Sa halimbawang ito, gagamitin namin ang sumusunod na input PdfWithTable.pdf file.

pdf to text ocr

Larawan 1: - Input file para sa PDF hanggang Text extraction.

pdf to text ocr

Larawan 2:- I-extract ang text mula sa PDF preview

// para sa higit pang mga halimbawa, pakibisita ang https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-java/tree/master/Examples/src/main/java/com/aspose/asposecloudpdf/examples

try
    {
    // Kumuha ng ClientID at ClientSecret mula sa https://dashboard.aspose.cloud/
    String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
    String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
		    
    // lumikha ng isang halimbawa ng PdfApi
    PdfApi pdfApi = new PdfApi(clientSecret,clientId);
    // pangalan ng input na PDF na dokumento
    String name = "PdfWithTable.pdf";
		        
    // basahin ang nilalaman ng input na PDF file
    File file = new File(name); 
    // mag-upload ng PDF sa cloud storage
    pdfApi.uploadFile("input.pdf", file, null);
		        
    // X-coordinate ng ibabang - kaliwang sulok
    Double LLX = 500.0;
    // Y - coordinate ng ibabang kaliwang sulok.
    Double LLY = 500.0;
    // X - coordinate ng kanang sulok sa itaas.
    Double URX = 800.0;
    // Y - coordinate ng kanang sulok sa itaas.
    Double URY = 800.0;
			       
    // tumawag sa API para I-convert ang PDF sa Text
    TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);    
		    
    // Traverse sa pamamagitan ng indibidwal na Text Occurrence
    for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
    {
        // magsulat ng nilalaman ng teksto sa console
        System.out.println(response.getTextOccurrences().getList().get(counter).getText());
    }
		  
    System.out.println("Extract Text from PDF successful !");
    }catch(Exception ex)
    {
        System.out.println(ex);
    }

Ngayon, subukan nating maunawaan ang tinukoy na snippet ng code sa itaas:

PdfApi pdfApi = new PdfApi(clientSecret,clientId);

Gumawa ng instance ng PdfApi habang ipinapasa ang mga personalized na kredensyal bilang mga argumento.

File file = new File(name); 
pdfApi.uploadFile("input.pdf", file, null);

Basahin ang input na PDF gamit ang File object at i-upload ito sa cloud storage gamit ang uploadFile(…) method ng PdfAPi class. Pakitandaan na ang file ay na-upload gamit ang pangalang ginamit sa paraan ng uploadFile.

TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);    

Ngayon, tawagan ang getText(..) method kung saan tinutukoy namin ang pangalan ng input na PDF file, mga hugis-parihaba na dimensyon sa pahina kung saan kailangan naming kunin ang textual na nilalaman at, ibalik ang nakuhang nilalaman sa TextRectsResponse object.

response.getTextOccurrences().getList().get(counter).getText()

Sa wakas, upang mai-print ang na-extract na nilalaman ng teksto, uulitin namin ang lahat ng TextOccurances at ipapakita ang mga ito sa console.

PDF sa Teksto gamit ang mga CURL Command

Bukod sa Java code snippet, maaari rin kaming magsagawa ng pdftotext operation gamit ang mga cURL command. Ngayon, ang isa sa mga kinakailangan para sa diskarte na ito ay upang makabuo ng isang JWT access token (batay sa mga kredensyal ng kliyente) gamit ang sumusunod na command.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Kapag nabuo na ang JWT, paki-execute ang sumusunod na command para kunin ang text mula sa PDF file na available na sa cloud storage.

curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>"

Mabilis na Tip

Naghahanap ng PDF to Text na libreng App! Pakisubukang gamitin ang aming PDF Parser.

Pangwakas na pangungusap

Sa konklusyon, ang pagkuha ng teksto mula sa mga PDF file gamit ang Java ay maaaring maging isang mahusay na solusyon para sa mga naghahanap upang i-automate ang kanilang mga pangangailangan sa pagproseso at pagsusuri ng data. Sa tulong ng gabay na ito, mayroon ka na ngayong matibay na pundasyon upang mabuo at madaling ipatupad ang iyong sariling solusyon na nakabatay sa Java para sa pagkuha ng teksto mula sa mga dokumentong PDF. Naghahanap ka man na kumuha ng text para sa pagsusuri ng data, machine learning, o anumang iba pang layunin, ang Java ay nagbibigay ng nababaluktot at maaasahang platform para sa iyong mga pangangailangan. Kaya sige at subukan ang iyong mga bagong nakuhang kasanayan!

Kung interesado kang tuklasin ang iba pang mga kapana-panabik na feature na inaalok ng API, paki-explore ang Product Documentation. Panghuli, kung makatagpo ka ng anumang isyu habang ginagamit ang API, o mayroon kang anumang nauugnay na query, mangyaring huwag mag-atubiling makipag-ugnayan sa amin sa pamamagitan ng libreng Product Support Forum.

Mga Kaugnay na Artikulo

Mangyaring bisitahin ang mga sumusunod na link upang matuto nang higit pa tungkol sa: