Sliocht téacs ó pdf

Sliocht téacs ó pdf i java

Tá a fhios againn go léir go bhfuil comhaid PDF ar cheann de na formáidí digiteacha is tábhachtaí agus a úsáidtear go forleathan chun doiciméid a chur i láthair agus a mhalartú go hiontaofa, neamhspleách ar bhogearraí, crua-earraí nó córas oibriúcháin. Mar sin féin, i gcásanna áirithe, b’fhéidir go mbeadh suim againn sliocht a fháil ó chomhaid mhóra PDF. Nó, d’fhéadfadh go mbeadh ceanglas orainn an PDF a shábháil go Téacs ar líne. Mar sin san Airteagal seo, táimid chun iniúchadh a dhéanamh ar na sonraí maidir le conas tiontaire PDF go Téacs a fhorbairt ag baint úsáide as Java REST API.

API Gineadóir PDF

Faigh an ghiaráil chun doiciméid PDF a ghiniúint ag baint úsáide as teimpléid nó ón tús ag baint úsáide as ár REST API. Ag an am céanna, cuireann an API ar do chumas eagarthóireacht a dhéanamh agus na comhaid PDF a athrú go formáidí eile 6. Is féidir leat freisin na buntáistí a bhaineann le téacs a bhaint as PDF, comhaid PDF a dhíchriptiú agus a chumasc ag baint úsáide as Java Cloud SDK. Anois, d’fhonn an Aspose.PDF Cloud SDK do Java a úsáid, ní mór dúinn a thagairt a chur isteach inár bhfeidhmchlár Java trí na sonraí seo a leanas a chur san áireamh i pom.xml (tionscadal cineál tógála maven).

<repositories> 
    <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>https://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-cloud-pdf</artifactId>
        <version>21.11.0</version>
        <scope>compile</scope>
    </dependency>
</dependencies>

Tar éis na suiteála, ní mór dúinn cuntas saor in aisce a chruthú thar Cloud Dashboard agus dintiúir cliant pearsantaithe a fháil.

Sliocht téacs ó pdf ag baint úsáide as Java

Déanaimis iniúchadh ar na sonraí chun téacs a bhaint as PDF ag baint úsáide as Java scamall SDK. Sa sampla seo, táimid chun an t-ionchur seo a leanas a úsáid PdfWithTable.pdf comhad.

Ó pdf go téacs ocr

Íomhá 1:- Comhad ionchuir le haghaidh eastóscadh PDF go Téacs.

Ó pdf go téacs ocr

Íomhá 2: - Sliocht téacs ó réamhamharc PDF

// le haghaidh tuilleadh samplaí, tabhair cuairt le do thoil https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-java/tree/master/Examples/src/main/java/com/aspose/asposecloudpdf/examples

try
    {
    // Faigh ClientID agus ClientSecret ó https://dashboard.aspose.cloud/
    String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
    String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
		    
    // Cruthaigh sampla de PdfApi
    PdfApi pdfApi = new PdfApi(clientSecret,clientId);
    // Ainm ionchur doiciméad pdf
    String name = "PdfWithTable.pdf";
		        
    // Léigh ábhar an chomhaid PDF ionchuir
    File file = new File(name); 
    // Uaslódáil PDF a stóráil scamall
    pdfApi.uploadFile("input.pdf", file, null);
		        
    // X-comhordú an chúinne íochtair - ar chlé
    Double LLX = 500.0;
    // Y - comhordanáidí na cúinne íochtair ar chlé.
    Double LLY = 500.0;
    // X - comhordanáid den chúinne uachtarach ar dheis.
    Double URX = 800.0;
    // Y - comhordanáid den chúinne uachtarach ar dheis.
    Double URY = 800.0;
			       
    // glaoigh ar API chun PDF a Thiontú go Téacs
    TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);    
		    
    // Trasnaigh trí Tarlú Téacs aonair
    for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
    {
        // scríobh ábhar téacs sa chonsól
        System.out.println(response.getTextOccurrences().getList().get(counter).getText());
    }
		  
    System.out.println("Extract Text from PDF successful !");
    }catch(Exception ex)
    {
        System.out.println(ex);
    }

Anois déanaimis iarracht an píosa cód sonraithe thuas a thuiscint:

PdfApi pdfApi = new PdfApi(clientSecret,clientId);

Cruthaigh sampla de PdfApi agus na dintiúir phearsantaithe á mbronnadh mar argóintí.

File file = new File(name); 
pdfApi.uploadFile("input.pdf", file, null);

Léigh an PDF ionchuir ag baint úsáide as File object agus uaslódáil chuig stóras néil ag baint úsáide as an modh uploadFile(…) den rang PdfAPi. Tabhair faoi deara le do thoil go bhfuil an comhad uaslódáilte leis an ainm a úsáidtear sa mhodh uploadFile.

TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);    

Anois glaoigh ar an modh getText(..) áit a shonróimid ainm an chomhaid PDF ionchuir, toisí dronuilleogacha ar an leathanach óna gcaithfimid an t-ábhar téacs a bhaint as agus, an t-ábhar a bhaintear ar ais chuig oibiacht TextRectsResponse.

response.getTextOccurrences().getList().get(counter).getText()

Ar deireadh, chun an t-ábhar téacs asbhainte a phriontáil, táimid chun athrá trí gach TextOccurances agus iad a thaispeáint sa chonsól.

PDF go Téacs ag baint úsáide as Orduithe CURL

Seachas blúire cód Java, is féidir linn oibriú pdftotext a dhéanamh ag baint úsáide as orduithe cURL. Anois, is é ceann de na réamhriachtanas don chur chuige seo comhartha rochtana JWT a ghiniúint (bunaithe ar dhintiúir na gcliant) ag baint úsáide as an ordú seo a leanas.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Nuair a ghintear an JWT, déan an t-ordú seo a leanas a fhorghníomhú chun téacs a bhaint as an gcomhad PDF atá ar fáil cheana féin i stóráil scamall.

curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>"

Leid Thapa

Aip saor ó PDF a chuardach! Bain triail as ár [Parsálaí PDF] (https://products.aspose.app/pdf/parser) a úsáid.

Nótaí Deiridh

Mar fhocal scoir, is féidir leis an réiteach cumhachtach a bheith ag baint le téacs a bhaint as comhaid PDF trí Java a úsáid dóibh siúd atá ag iarraidh a gcuid riachtanas próiseála agus anailíse sonraí a uathoibriú. Le cabhair ón treoir seo, tá bonn láidir agat anois le tógáil air agus is féidir leat do réiteach Java-bhunaithe féin a chur i bhfeidhm go héasca chun téacs a bhaint as doiciméid PDF. Cibé an bhfuil tú ag iarraidh téacs a bhaint le haghaidh anailíse sonraí, meaisínfhoghlama nó aon chríche eile, soláthraíonn Java ardán solúbtha iontaofa do do chuid riachtanas. Mar sin, téigh ar aghaidh agus cuir do scileanna nua-fhaighte faoi bhráid na tástála!

Más spéis leat gnéithe spreagúla eile atá á dtairiscint ag an API a fhiosrú, le do thoil iniúchadh a dhéanamh ar an Doiciméadúchán Táirge. Ar deireadh, má thagann aon fhadhb ort agus an API á úsáid agat, nó má tá aon cheist ghaolmhar agat, ná bíodh drogall ort teagmháil a dhéanamh linn trí Product Support Forum saor in aisce.

Airteagail Ghaolmhara

Tabhair cuairt ar na naisc seo a leanas chun tuilleadh a fhoghlaim faoi: