Delwedd PDF i PDF Chwiliadwy

Trosi Delwedd PDF yn PDF Chwiliadwy

Yn y byd sy’n cael ei yrru gan ddata heddiw, mae PDFs wedi dod yn fformat anhepgor ar gyfer storio a rhannu dogfennau. Fodd bynnag, nid yw pob PDF yn hawdd ei chwilio na’i olygu, yn enwedig y rhai sy’n seiliedig ar ddelweddau. Wrth ymdrin â dogfennau, mae’n anodd iawn copïo/echdynnu unrhyw wybodaeth destunol i’w thrin ymhellach. Yn ffodus, gyda phŵer technoleg Adnabod Cymeriad Optegol (OCR), gallwch chi drosi delweddau PDF yn PDFs chwiliadwy yn rhwydd. Yn y blog technegol hwn, byddwn yn archwilio sut i drosi OCR PDF i PDF chwiliadwy gan ddefnyddio technegau amrywiol, gyda ffocws penodol ar REST API. Byddwn hefyd yn trafod sut i dynnu testun o PDFs OCR, gan roi dealltwriaeth gynhwysfawr i chi o sut i drosoli technoleg OCR i ddatgloi potensial llawn eich dogfennau PDF.

OCR PDF gan ddefnyddio Java SDK

Mae Aspose.PDF Cloud SDK ar gyfer Java yn API pwerus yn y cwmwl sy’n cynnig ystod eang o nodweddion a galluoedd ar gyfer gweithio gyda dogfennau PDF. Un o’i swyddogaethau allweddol yw’r gallu i berfformio OCR ar PDFs, a all symleiddio’n fawr y broses o dynnu testun o PDFs seiliedig ar ddelweddau a chreu PDFs chwiliadwy. Gyda’i ryngwyneb hawdd ei ddefnyddio a dogfennaeth gynhwysfawr, mae’r SDK hwn yn ei gwneud hi’n hawdd awtomeiddio’r broses o berfformio OCR ar PDFs, gan arbed amser a chynyddu cynhyrchiant.

Ar ben hynny, mae’r API hwn sy’n seiliedig ar gwmwl wedi’i gynllunio i drin amrywiaeth eang o fformatau mewnbwn a gall hyd yn oed adnabod testun mewn llawysgrifen, gan ei wneud yn ddewis rhagorol i fusnesau a datblygwyr sydd am symleiddio eu llif gwaith dogfen. Nawr y cam cyntaf yw ychwanegu ei gyfeiriad ym mhrosiect Java trwy ychwanegu’r manylion canlynol yn pom.xml o brosiect adeiladu maven.

<repositories> 
    <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>http://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-pdf-cloud</artifactId>
        <version>21.11.0</version>
    </dependency>
</dependencies>

Os nad oes gennych gyfrif yn barod, mae angen i chi greu cyfrif am ddim dros Aspose Cloud. Mewngofnodwch gan ddefnyddio cyfrif sydd newydd ei greu a chwilio/creu ID Cleient a Client Secret yn Cloud Dashboard. Mae angen y manylion hyn mewn adrannau dilynol.

PDF wedi’i sganio i PDF Chwiliadwy gan ddefnyddio Java

Mae’r adran hon yn esbonio’r manylion ar sut i drosi PDF wedi’i sganio yn PDF Chwiliadwy gan ddefnyddio pyt cod Java. Sylwch fod Java Cloud SDK yn cefnogi adnabod yr ieithoedd canlynol: eng, ara, bel, ben, bul, ces, dan, deu, ell, fin, fra, heb, hin, ind, isl, ita, jpn, kor, nld , na, pol, por, ron, rus, sba, swe, tha, tur, ukr, vie, chisim, chitra neu eu cyfuniad ee eng,rus.

  • Yn gyntaf mae angen i ni greu gwrthrych o PdfApi, lle rydym yn pasio ClientID a manylion cyfrinachol Cleient fel dadleuon
  • Yn ail, crëwch enghraifft o ddosbarth Ffeil i lwytho’r Delwedd PDF
  • Yn drydydd, ffoniwch y dull uploadFile (…) i uwchlwytho’r PDF mewnbwn i’r storfa cwmwl
  • Gan fod ein delwedd PDF yn cynnwys testun Saesneg, felly mae angen i ni greu gwrthrych llinynnol sy’n dal gwerth “eng”
  • Yn olaf, ffoniwch y dull putSearchableDocument(…), sy’n gofyn am fewnbwn PDF a chod iaith fel dadleuon.

Unwaith y bydd y cod wedi’i weithredu’n llwyddiannus, mae’r PDF chwiliadwy yn cael ei storio mewn storfa cwmwl

try
    {
    // Cael ClientID a ClientSecret o https://dashboard.aspose.cloud/
    String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
    String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
	  
    // enghraifft creuPdfApi
    PdfApi pdfApi = new PdfApi(clientSecret,clientId);
	    				
    // mewnbynnu delwedd dogfen PDF
    String name = "ScannedPDF.pdf";	        
	    			    
    // Llwythwch y ffeil o'r system leol
    File file = new File(name);
    // uwchlwythwch y ffeil i storfa cwmwl
    FilesUploadResult uploadResponse = pdfApi.uploadFile(name, file, null);
	    				
    // yr ieithoedd a ddefnyddir mewn delwedd PDF
    String lang = "eng";
	    				
    //  perfformio'r OCR ar ddelwedd dogfen PDF
    AsposeResponse response = pdfApi.putSearchableDocument(name, null, null, lang);
	    
    // argraffu neges llwyddiant
    System.out.println("OCR PDF successfull !");
    }catch(Exception ex)
    {
        System.out.println(ex.getMessage());
    }
Delwedd PDF i PDF Chwiliadwy

Delwedd1:- Rhagolwg PDF chwiliadwy

Gellir lawrlwytho’r PDF wedi’i sganio a ddefnyddir yn yr enghraifft uchod o BusinessReport.pdf a’r PDF chwiliadwy canlyniadol o Converted.pdf

OCR Ar-lein gan ddefnyddio Gorchmynion cURL

Mae’r gorchmynion cURL yn un o’r dulliau cyfleus o alw’r APIs REST. Felly yn yr adran hon, rydyn ni’n mynd i ddefnyddio’r gorchmynion cURL ar gyfer OCR ar-lein. Nawr, fel rhagofyniad, yn gyntaf mae angen i ni gynhyrchu tocyn mynediad JWT (yn seiliedig ar gymwysterau cleient) wrth weithredu’r gorchymyn canlynol.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Ar ôl i ni gael tocyn JWT, os gwelwch yn dda y gorchymyn canlynol i berfformio OCR ar-lein a throsi Delwedd PDF yn ddogfen PDF chwiliadwy. Yna caiff y ffeil ganlyniadol ei storio mewn storfa cwmwl.

curl -v -X GET "https://api.aspose.cloud/v4.0/words/Resultant.docx?format=TIFF&outPath=converted.tiff" \
-H  "accept: application/octet-stream" \
-H  "Authorization: Bearer <JWT Token>"

Casgliad

Mae perfformio OCR ar PDFs yn broses hollbwysig ar gyfer datgloi potensial llawn y dogfennau hyn. Gyda chymorth offer OCR sy’n seiliedig ar gymylau fel Aspose.PDF Cloud SDK ar gyfer Java, gellir symleiddio ac awtomeiddio’r broses hon, gan arbed amser a chynyddu cynhyrchiant. Trwy ddefnyddio pŵer OCR, gall busnesau a datblygwyr drawsnewid PDFs sy’n seiliedig ar ddelwedd yn PDFs chwiliadwy, gan eu gwneud yn haws i’w chwilio, eu golygu a’u rhannu. Mae’n amlwg bod yr API hwn yn cynnig ystod o nodweddion a galluoedd pwerus ar gyfer gweithio gyda PDFs. Trwy ddilyn y canllawiau cam wrth gam a ddarperir yn y blog technegol hwn, gallwch ddechrau gydag OCR ar PDFs a mynd â llif gwaith eich dogfen i’r lefel nesaf.

Efallai y byddwch yn ystyried cyrchu’r API o fewn porwr gwe gan ddefnyddio’r rhyngwyneb swagger. Ar ben hynny, gan fod ein SDKs wedi’u hadeiladu o dan drwydded MIT, felly gellir lawrlwytho’r cod ffynhonnell cyflawn o GitHub. Rhag ofn y byddwch chi’n dod ar draws unrhyw broblemau wrth ddefnyddio’r API, mae croeso i chi gysylltu â ni trwy fforwm cymorth cynnyrch am ddim.

Erthyglau Perthnasol

Rydym yn argymell yn gryf ymweld â’r dolenni canlynol i ddysgu mwy am: