I ndomhan sonraí-tiomáinte an lae inniu, tá PDFs ina bhformáid fíor-riachtanach chun doiciméid a stóráil agus a roinnt. Mar sin féin, níl gach PDF inchuardaithe nó in eagar go héasca, go háirithe iad siúd atá bunaithe ar íomhá. Agus tú ag déileáil le doiciméid, bíonn sé fíordheacair aon fhaisnéis téacs a chóipeáil/asbhaint le haghaidh tuilleadh láimhseála. Ar ámharaí an tsaoil, le cumhacht na teicneolaíochta um Aithint Optúil Carachtair (OCR), is féidir leat PDF íomhánna a thiontú go PDF inchuardaithe gan stró. Sa bhlag teicniúil seo, déanfaimid iniúchadh ar conas OCR PDF a thiontú go PDF inchuardaithe ag baint úsáide as teicnící éagsúla, le fócas sonrach ar REST API. Pléifimid freisin conas téacs a bhaint as PDFanna OCR, a thabharfaidh tuiscint chuimsitheach duit ar conas teicneolaíocht OCR a ghiaráil chun lánacmhainneacht do dhoiciméid PDF a dhíghlasáil.
- OCR PDF ag baint úsáide as Java SDK
- Scanadh PDF go PDF Inchuardaithe ag baint úsáide as Java
- OCR Ar Líne ag baint úsáide as Orduithe CURL
OCR PDF ag baint úsáide as Java SDK
Is API cumhachtach scamall-bhunaithe é Aspose.PDF Cloud SDK do Java a thairgeann raon leathan gnéithe agus cumas chun oibriú le doiciméid PDF. Ar cheann de na príomhfheidhmeanna atá aige tá an cumas OCR a dhéanamh ar PDFanna, ar féidir leis an bpróiseas chun téacs a bhaint as PDF atá bunaithe ar íomhánna a shimpliú go mór agus PDFanna inchuardaithe a chruthú. Leis an gcomhéadan atá éasca le húsáid agus a dhoiciméadú cuimsitheach, déanann an SDK seo an próiseas feidhmiú OCR ar PDFs éasca a uathoibriú, rud a shábhálann am agus a mhéadaíonn táirgiúlacht.
Ina theannta sin, tá an API scamall-bhunaithe seo deartha chun raon leathan formáidí ionchuir a láimhseáil agus is féidir fiú téacs lámhscríofa a aithint, rud a fhágann gur rogha iontach é do ghnólachtaí agus d’fhorbróirí atá ag iarraidh a sreabhadh oibre doiciméad a shruthlíniú. Anois is é an chéad chéim a thagairt i dtionscadal Java a chur leis trí na sonraí seo a leanas a chur leis i pom.xml de thionscadal tógála maven.
<repositories>
<repository>
<id>aspose-cloud</id>
<name>artifact.aspose-cloud-releases</name>
<url>https://artifact.aspose.cloud/repo</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf-cloud</artifactId>
<version>21.11.0</version>
</dependency>
</dependencies>
Mura bhfuil cuntas agat cheana féin, ní mór duit cuntas saor in aisce a chruthú thar Aspose Cloud. Logáil isteach ag baint úsáide as cuntas nuachruthaithe agus cuardaigh/cruthaigh Aitheantas Cliant agus Rún Cliant ag Cloud Dashboard. Tá na sonraí seo ag teastáil sna hailt ina dhiaidh sin.
Scanadh PDF go PDF Inchuardaithe ag baint úsáide as Java
Mínítear sa chuid seo na sonraí maidir le conas PDF scanta a thiontú go PDF Inchuardaithe ag baint úsáide as gearrthóg cód Java. Tabhair faoi deara le do thoil go dtacaíonn Java Cloud SDK le haitheantas na dteangacha seo a leanas: eng, ara, bel, ben, bul, ces, dan, deu, ell, fin, fra, heb, hin, ind, isl, ita, jpn, kor, nld , ná, pol, por, ron, rus, spa, swe, tha, tur, ukr, vie, chisim, chitra nó a gcomhcheangal eg eng,rus.
- Ar dtús ní mór dúinn oibiacht PdfApi a chruthú, áit a gcuirfimid ClientID agus sonraí rúnda Cliant mar argóintí
- Ar an dara dul síos, cruthaigh sampla de rang Comhad chun an PDF Íomhá a luchtú
- Ar an tríú dul síos, cuir glaoch ar an modh uploadFile (…) chun an PDF ionchuir a uaslódáil chuig an stóráil scamall
- Toisc go bhfuil téacs Béarla inár n-íomhá PDF, mar sin ní mór dúinn teaghrán a chruthú a bhfuil luach “eng” aige
- Ar deireadh, cuir glaoch ar an modh putSearchableDocument(…), a éilíonn ionchur PDF agus cód teanga mar argóintí.
Nuair a dhéantar an cód a fhorghníomhú go rathúil, stóráiltear an PDF inchuardaithe i stóráil scamall
try
{
// Faigh ClientID agus ClientSecret ó https://dashboard.aspose.cloud/
String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
// CruthaighPdfApi shampla
PdfApi pdfApi = new PdfApi(clientSecret,clientId);
// Íomhá ionchur doiciméad pdf
String name = "ScannedPDF.pdf";
// Íoslódáil an comhad ón gcóras áitiúil
File file = new File(name);
// Uaslódáil an comhad chuig scamall stórála
FilesUploadResult uploadResponse = pdfApi.uploadFile(name, file, null);
// Na teangacha a úsáidtear i íomhá pdf
String lang = "eng";
// OCR a dhéanamh ar íomhá doiciméad pdf
AsposeResponse response = pdfApi.putSearchableDocument(name, null, null, lang);
// teachtaireacht rath a phriontáil
System.out.println("OCR PDF successfull !");
}catch(Exception ex)
{
System.out.println(ex.getMessage());
}
Is féidir an PDF scanta a úsáideadh sa sampla thuas a íoslódáil ó BusinessReport.pdf agus an PDF inchuardaithe dá bharr ó Converted.pdf
OCR Ar Líne ag baint úsáide as Orduithe CURL
Tá na horduithe cURL ar cheann de na cuir chuige áisiúla chun na APIanna REST a ghlaoch. Mar sin sa chuid seo, táimid chun na horduithe cURL le haghaidh OCR a úsáid ar líne. Anois, mar réamhriachtanas, ní mór dúinn comhartha rochtana JWT a ghiniúint ar dtús (bunaithe ar dhintiúir an chliaint) agus an t-ordú seo a leanas á fhorghníomhú.
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
Nuair a bheidh comhartha JWT againn, le do thoil an t-ordú seo a leanas chun OCR a dhéanamh ar líne agus Íomhá PDF a thiontú go doiciméad PDF inchuardaithe. Stóráiltear an comhad mar thoradh air sin i stóráil néil.
curl -v -X GET "https://api.aspose.cloud/v4.0/words/Resultant.docx?format=TIFF&outPath=converted.tiff" \
-H "accept: application/octet-stream" \
-H "Authorization: Bearer <JWT Token>"
Conclúid
Is próiseas ríthábhachtach é OCR a dhéanamh ar PDF chun lánacmhainneacht na ndoiciméad seo a dhíghlasáil. Le cabhair ó uirlisí OCR scamall-bhunaithe cosúil le Aspose.PDF Cloud SDK do Java, is féidir an próiseas seo a shimpliú agus a uathoibriú, rud a shábháil am agus táirgiúlacht a mhéadú. Trí chumhacht OCR a ghiaráil, is féidir le gnólachtaí agus forbróirí PDFs íomhá-bhunaithe a thiontú ina PDFanna inchuardaithe, rud a fhágann gur fusa iad a chuardach, a chur in eagar agus a roinnt. Is léir go dtugann an API seo raon de ghnéithe agus de chumais chumhachtacha chun oibriú le PDFs. Trí na treoracha céim ar chéim atá ar fáil sa bhlag teicniúil seo a leanúint, is féidir leat tosú le OCR ar PDFanna agus sreabhadh oibre do dhoiciméid a thógáil go dtí an chéad leibhéal eile.
Is féidir leat smaoineamh ar rochtain a fháil ar an API laistigh de bhrabhsálaí gréasáin ag baint úsáide as an comhéadan swagger. Ina theannta sin, toisc go dtógtar ár SDKanna faoi cheadúnas MIT, mar sin is féidir an cód foinse iomlán a íoslódáil ó GitHub. I gcás go mbeidh aon fhadhbanna agat agus an API á úsáid agat, ná bíodh drogall ort teagmháil a dhéanamh linn trí fóram tacaíochta táirge saor in aisce.
Airteagail Ghaolmhara
Molaimid go mór cuairt a thabhairt ar na naisc seo a leanas chun tuilleadh a fhoghlaim faoi: