Yn y byd sy’n cael ei yrru gan ddata heddiw, mae PDFs wedi dod yn fformat anhepgor ar gyfer storio a rhannu dogfennau. Fodd bynnag, nid yw pob PDF yn hawdd ei chwilio na’i olygu, yn enwedig y rhai sy’n seiliedig ar ddelweddau. Wrth ymdrin â dogfennau, mae’n anodd iawn copïo/echdynnu unrhyw wybodaeth destunol i’w thrin ymhellach. Yn ffodus, gyda phŵer technoleg Adnabod Cymeriad Optegol (OCR), gallwch chi drosi delweddau PDF yn PDFs chwiliadwy yn rhwydd. Yn y blog technegol hwn, byddwn yn archwilio sut i drosi OCR PDF i PDF chwiliadwy gan ddefnyddio technegau amrywiol, gyda ffocws penodol ar REST API. Byddwn hefyd yn trafod sut i dynnu testun o PDFs OCR, gan roi dealltwriaeth gynhwysfawr i chi o sut i drosoli technoleg OCR i ddatgloi potensial llawn eich dogfennau PDF.
- OCR PDF gan ddefnyddio Java SDK
- PDF wedi’i sganio i PDF Chwiliadwy gan ddefnyddio Java
- OCR Ar-lein gan ddefnyddio Gorchmynion cURL
OCR PDF gan ddefnyddio Java SDK
Mae Aspose.PDF Cloud SDK ar gyfer Java yn API pwerus yn y cwmwl sy’n cynnig ystod eang o nodweddion a galluoedd ar gyfer gweithio gyda dogfennau PDF. Un o’i swyddogaethau allweddol yw’r gallu i berfformio OCR ar PDFs, a all symleiddio’n fawr y broses o dynnu testun o PDFs seiliedig ar ddelweddau a chreu PDFs chwiliadwy. Gyda’i ryngwyneb hawdd ei ddefnyddio a dogfennaeth gynhwysfawr, mae’r SDK hwn yn ei gwneud hi’n hawdd awtomeiddio’r broses o berfformio OCR ar PDFs, gan arbed amser a chynyddu cynhyrchiant.
Ar ben hynny, mae’r API hwn sy’n seiliedig ar gwmwl wedi’i gynllunio i drin amrywiaeth eang o fformatau mewnbwn a gall hyd yn oed adnabod testun mewn llawysgrifen, gan ei wneud yn ddewis rhagorol i fusnesau a datblygwyr sydd am symleiddio eu llif gwaith dogfen. Nawr y cam cyntaf yw ychwanegu ei gyfeiriad ym mhrosiect Java trwy ychwanegu’r manylion canlynol yn pom.xml o brosiect adeiladu maven.
<repositories>
<repository>
<id>aspose-cloud</id>
<name>artifact.aspose-cloud-releases</name>
<url>https://artifact.aspose.cloud/repo</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf-cloud</artifactId>
<version>21.11.0</version>
</dependency>
</dependencies>
Os nad oes gennych gyfrif yn barod, mae angen i chi greu cyfrif am ddim dros Aspose Cloud. Mewngofnodwch gan ddefnyddio cyfrif sydd newydd ei greu a chwilio/creu ID Cleient a Client Secret yn Cloud Dashboard. Mae angen y manylion hyn mewn adrannau dilynol.
PDF wedi’i sganio i PDF Chwiliadwy gan ddefnyddio Java
Mae’r adran hon yn esbonio’r manylion ar sut i drosi PDF wedi’i sganio yn PDF Chwiliadwy gan ddefnyddio pyt cod Java. Sylwch fod Java Cloud SDK yn cefnogi adnabod yr ieithoedd canlynol: eng, ara, bel, ben, bul, ces, dan, deu, ell, fin, fra, heb, hin, ind, isl, ita, jpn, kor, nld , na, pol, por, ron, rus, sba, swe, tha, tur, ukr, vie, chisim, chitra neu eu cyfuniad ee eng,rus.
- Yn gyntaf mae angen i ni greu gwrthrych o PdfApi, lle rydym yn pasio ClientID a manylion cyfrinachol Cleient fel dadleuon
- Yn ail, crëwch enghraifft o ddosbarth Ffeil i lwytho’r Delwedd PDF
- Yn drydydd, ffoniwch y dull uploadFile (…) i uwchlwytho’r PDF mewnbwn i’r storfa cwmwl
- Gan fod ein delwedd PDF yn cynnwys testun Saesneg, felly mae angen i ni greu gwrthrych llinynnol sy’n dal gwerth “eng”
- Yn olaf, ffoniwch y dull putSearchableDocument(…), sy’n gofyn am fewnbwn PDF a chod iaith fel dadleuon.
Unwaith y bydd y cod wedi’i weithredu’n llwyddiannus, mae’r PDF chwiliadwy yn cael ei storio mewn storfa cwmwl
try
{
// Cael ClientID a ClientSecret o https://dashboard.aspose.cloud/
String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
// enghraifft creuPdfApi
PdfApi pdfApi = new PdfApi(clientSecret,clientId);
// mewnbynnu delwedd dogfen PDF
String name = "ScannedPDF.pdf";
// Llwythwch y ffeil o'r system leol
File file = new File(name);
// uwchlwythwch y ffeil i storfa cwmwl
FilesUploadResult uploadResponse = pdfApi.uploadFile(name, file, null);
// yr ieithoedd a ddefnyddir mewn delwedd PDF
String lang = "eng";
// perfformio'r OCR ar ddelwedd dogfen PDF
AsposeResponse response = pdfApi.putSearchableDocument(name, null, null, lang);
// argraffu neges llwyddiant
System.out.println("OCR PDF successfull !");
}catch(Exception ex)
{
System.out.println(ex.getMessage());
}
Gellir lawrlwytho’r PDF wedi’i sganio a ddefnyddir yn yr enghraifft uchod o BusinessReport.pdf a’r PDF chwiliadwy canlyniadol o Converted.pdf
OCR Ar-lein gan ddefnyddio Gorchmynion cURL
Mae’r gorchmynion cURL yn un o’r dulliau cyfleus o alw’r APIs REST. Felly yn yr adran hon, rydyn ni’n mynd i ddefnyddio’r gorchmynion cURL ar gyfer OCR ar-lein. Nawr, fel rhagofyniad, yn gyntaf mae angen i ni gynhyrchu tocyn mynediad JWT (yn seiliedig ar gymwysterau cleient) wrth weithredu’r gorchymyn canlynol.
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
Ar ôl i ni gael tocyn JWT, os gwelwch yn dda y gorchymyn canlynol i berfformio OCR ar-lein a throsi Delwedd PDF yn ddogfen PDF chwiliadwy. Yna caiff y ffeil ganlyniadol ei storio mewn storfa cwmwl.
curl -v -X GET "https://api.aspose.cloud/v4.0/words/Resultant.docx?format=TIFF&outPath=converted.tiff" \
-H "accept: application/octet-stream" \
-H "Authorization: Bearer <JWT Token>"
Casgliad
Mae perfformio OCR ar PDFs yn broses hollbwysig ar gyfer datgloi potensial llawn y dogfennau hyn. Gyda chymorth offer OCR sy’n seiliedig ar gymylau fel Aspose.PDF Cloud SDK ar gyfer Java, gellir symleiddio ac awtomeiddio’r broses hon, gan arbed amser a chynyddu cynhyrchiant. Trwy ddefnyddio pŵer OCR, gall busnesau a datblygwyr drawsnewid PDFs sy’n seiliedig ar ddelwedd yn PDFs chwiliadwy, gan eu gwneud yn haws i’w chwilio, eu golygu a’u rhannu. Mae’n amlwg bod yr API hwn yn cynnig ystod o nodweddion a galluoedd pwerus ar gyfer gweithio gyda PDFs. Trwy ddilyn y canllawiau cam wrth gam a ddarperir yn y blog technegol hwn, gallwch ddechrau gydag OCR ar PDFs a mynd â llif gwaith eich dogfen i’r lefel nesaf.
Efallai y byddwch yn ystyried cyrchu’r API o fewn porwr gwe gan ddefnyddio’r rhyngwyneb swagger. Ar ben hynny, gan fod ein SDKs wedi’u hadeiladu o dan drwydded MIT, felly gellir lawrlwytho’r cod ffynhonnell cyflawn o GitHub. Rhag ofn y byddwch chi’n dod ar draws unrhyw broblemau wrth ddefnyddio’r API, mae croeso i chi gysylltu â ni trwy fforwm cymorth cynnyrch am ddim.
Erthyglau Perthnasol
Rydym yn argymell yn gryf ymweld â’r dolenni canlynol i ddysgu mwy am: