Alam nating lahat na ang PDF na mga file ay isa sa pinakamahalaga at malawakang ginagamit na mga digital na format na ginagamit upang ipakita at makipagpalitan ng mga dokumento nang mapagkakatiwalaan, independyente sa software, hardware, o operating system. Gayunpaman, sa ilang mga sitwasyon, maaaring interesado kaming makakuha ng sipi mula sa malalaking PDF file. O, maaaring mayroon kaming kinakailangan upang i-save ang PDF sa Text online. Kaya sa artikulong ito, tutuklasin natin ang mga detalye kung paano bumuo ng PDF to Text converter gamit ang Java REST API.
- PDF Generator API
- I-extract ang Text mula sa PDF gamit ang Java
- PDF sa Teksto gamit ang mga CURL Command
PDF Generator API
Kunin ang leverage upang makabuo ng mga PDF na dokumento gamit ang mga template o mula sa simula gamit ang aming REST API. Kasabay nito, binibigyang-daan ka rin ng API na i-edit pati na rin ang pagbabago ng mga PDF file sa iba pang mga sinusuportahang format. Maaari mo ring kunin ang mga benepisyo ng pag-extract ng text mula sa PDF, pag-decryption at pagsasama-sama ng mga PDF file gamit ang Java Cloud SDK. Ngayon, para magamit ang Aspose.PDF Cloud SDK para sa Java, kailangan naming idagdag ang reference nito sa aming Java application sa pamamagitan ng pagsasama ng mga sumusunod na detalye sa pom.xml (maven build type project).
<repositories>
<repository>
<id>aspose-cloud</id>
<name>artifact.aspose-cloud-releases</name>
<url>http://artifact.aspose.cloud/repo</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-cloud-pdf</artifactId>
<version>21.11.0</version>
<scope>compile</scope>
</dependency>
</dependencies>
Pagkatapos ng pag-install, kailangan naming lumikha ng isang libreng account sa Cloud Dashboard at kumuha ng mga personalized na kredensyal ng kliyente.
I-extract ang Text mula sa PDF gamit ang Java
Tuklasin natin ang mga detalye para mag-extract ng text mula sa PDF gamit ang Java cloud SDK. Sa halimbawang ito, gagamitin namin ang sumusunod na input PdfWithTable.pdf file.
// para sa higit pang mga halimbawa, pakibisita ang https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-java/tree/master/Examples/src/main/java/com/aspose/asposecloudpdf/examples
try
{
// Kumuha ng ClientID at ClientSecret mula sa https://dashboard.aspose.cloud/
String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
// lumikha ng isang halimbawa ng PdfApi
PdfApi pdfApi = new PdfApi(clientSecret,clientId);
// pangalan ng input na PDF na dokumento
String name = "PdfWithTable.pdf";
// basahin ang nilalaman ng input na PDF file
File file = new File(name);
// mag-upload ng PDF sa cloud storage
pdfApi.uploadFile("input.pdf", file, null);
// X-coordinate ng ibabang - kaliwang sulok
Double LLX = 500.0;
// Y - coordinate ng ibabang kaliwang sulok.
Double LLY = 500.0;
// X - coordinate ng kanang sulok sa itaas.
Double URX = 800.0;
// Y - coordinate ng kanang sulok sa itaas.
Double URY = 800.0;
// tumawag sa API para I-convert ang PDF sa Text
TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);
// Traverse sa pamamagitan ng indibidwal na Text Occurrence
for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
{
// magsulat ng nilalaman ng teksto sa console
System.out.println(response.getTextOccurrences().getList().get(counter).getText());
}
System.out.println("Extract Text from PDF successful !");
}catch(Exception ex)
{
System.out.println(ex);
}
Ngayon, subukan nating maunawaan ang tinukoy na snippet ng code sa itaas:
PdfApi pdfApi = new PdfApi(clientSecret,clientId);
Gumawa ng instance ng PdfApi habang ipinapasa ang mga personalized na kredensyal bilang mga argumento.
File file = new File(name);
pdfApi.uploadFile("input.pdf", file, null);
Basahin ang input na PDF gamit ang File object at i-upload ito sa cloud storage gamit ang uploadFile(…) method ng PdfAPi class. Pakitandaan na ang file ay na-upload gamit ang pangalang ginamit sa paraan ng uploadFile.
TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);
Ngayon, tawagan ang getText(..) method kung saan tinutukoy namin ang pangalan ng input na PDF file, mga hugis-parihaba na dimensyon sa pahina kung saan kailangan naming kunin ang textual na nilalaman at, ibalik ang nakuhang nilalaman sa TextRectsResponse object.
response.getTextOccurrences().getList().get(counter).getText()
Sa wakas, upang mai-print ang na-extract na nilalaman ng teksto, uulitin namin ang lahat ng TextOccurances at ipapakita ang mga ito sa console.
PDF sa Teksto gamit ang mga CURL Command
Bukod sa Java code snippet, maaari rin kaming magsagawa ng pdftotext operation gamit ang mga cURL command. Ngayon, ang isa sa mga kinakailangan para sa diskarte na ito ay upang makabuo ng isang JWT access token (batay sa mga kredensyal ng kliyente) gamit ang sumusunod na command.
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
Kapag nabuo na ang JWT, paki-execute ang sumusunod na command para kunin ang text mula sa PDF file na available na sa cloud storage.
curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H "accept: application/json" \
-H "authorization: Bearer <JWT Token>"
Mabilis na Tip
Naghahanap ng PDF to Text na libreng App! Pakisubukang gamitin ang aming PDF Parser.
Pangwakas na pangungusap
Sa konklusyon, ang pagkuha ng teksto mula sa mga PDF file gamit ang Java ay maaaring maging isang mahusay na solusyon para sa mga naghahanap upang i-automate ang kanilang mga pangangailangan sa pagproseso at pagsusuri ng data. Sa tulong ng gabay na ito, mayroon ka na ngayong matibay na pundasyon upang mabuo at madaling ipatupad ang iyong sariling solusyon na nakabatay sa Java para sa pagkuha ng teksto mula sa mga dokumentong PDF. Naghahanap ka man na kumuha ng text para sa pagsusuri ng data, machine learning, o anumang iba pang layunin, ang Java ay nagbibigay ng nababaluktot at maaasahang platform para sa iyong mga pangangailangan. Kaya sige at subukan ang iyong mga bagong nakuhang kasanayan!
Kung interesado kang tuklasin ang iba pang mga kapana-panabik na feature na inaalok ng API, paki-explore ang Product Documentation. Panghuli, kung makatagpo ka ng anumang isyu habang ginagamit ang API, o mayroon kang anumang nauugnay na query, mangyaring huwag mag-atubiling makipag-ugnayan sa amin sa pamamagitan ng libreng Product Support Forum.
Mga Kaugnay na Artikulo
Mangyaring bisitahin ang mga sumusunod na link upang matuto nang higit pa tungkol sa: