Tänapäeva andmepõhises maailmas on PDF-idest saanud dokumentide salvestamise ja jagamise asendamatu vorming. Kuid mitte kõik PDF-failid pole hõlpsasti otsitavad ega redigeeritavad, eriti need, mis on pildipõhised. Dokumentidega tegelemisel on tõesti raske tekstilist teavet edasiseks manipuleerimiseks kopeerida/välja võtta. Õnneks saate optilise märgituvastuse (OCR) tehnoloogia abil hõlpsasti teisendada pildi-PDF-id otsitavateks PDF-failideks. Selles tehnilises ajaveebis uurime, kuidas teisendada OCR PDF-i otsitavaks PDF-iks, kasutades erinevaid tehnikaid, keskendudes eelkõige REST API-le. Arutame ka, kuidas OCR-i PDF-failidest teksti eraldada, andes teile põhjaliku ülevaate sellest, kuidas kasutada OCR-tehnoloogiat oma PDF-dokumentide täieliku potentsiaali avamiseks.
- OCR PDF, kasutades Java SDK-d
- Skannitud PDF Java abil otsitavaks PDF-iks
- OCR võrgus, kasutades cURL-i käske
OCR PDF, kasutades Java SDK-d
Aspose.PDF Cloud SDK for Java on võimas pilvepõhine API, mis pakub laia valikut funktsioone ja võimalusi PDF-dokumentidega töötamiseks. Üks selle põhifunktsioone on võimalus teostada PDF-failide OCR-i, mis võib oluliselt lihtsustada pildipõhistest PDF-failidest teksti eraldamist ja otsitavate PDF-ide loomist. Selle kasutajasõbraliku liidese ja põhjaliku dokumentatsiooniga muudab see SDK PDF-failide OCR-i teostamise protsessi lihtsaks automatiseerimise, säästes aega ja suurendades tootlikkust.
Lisaks on see pilvepõhine API mõeldud käsitlema mitmesuguseid sisestusvorminguid ja suudab isegi käsitsi kirjutatud teksti ära tunda, muutes selle suurepäraseks valikuks ettevõtetele ja arendajatele, kes soovivad oma dokumentide töövoogu sujuvamaks muuta. Nüüd on esimene samm lisada selle viide Java projekti, lisades järgmised üksikasjad maven build projekti pom.xml-sse.
<repositories>
<repository>
<id>aspose-cloud</id>
<name>artifact.aspose-cloud-releases</name>
<url>https://artifact.aspose.cloud/repo</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf-cloud</artifactId>
<version>21.11.0</version>
</dependency>
</dependencies>
Kui teil pole olemasolevat kontot, peate looma Aspose Cloud kaudu tasuta konto. Logige sisse äsja loodud kontoga ja otsige/looge kliendi ID ja kliendi saladus saidil Cloud Dashboard. Need üksikasjad on nõutavad järgmistes jaotistes.
Skannitud PDF Java abil otsitavaks PDF-iks
See jaotis selgitab üksikasju selle kohta, kuidas teisendada skannitud PDF Java koodilõigu abil otsitavaks PDF-iks. Pange tähele, et Java Cloud SDK toetab järgmiste keelte tuvastamist: eng, ara, bel, ben, bul, ces, dan, deu, ell, fin, fra, heb, hin, ind, isl, ita, jpn, kor, nld , nor, pol, por, ron, rus, spa, swe, tha, tur, ukr, vie, chisim, chitra või nende kombinatsioon nt eng,rus.
- Kõigepealt peame looma PdfApi objekti, kus edastame argumentidena ClientID ja kliendi salajased andmed
- Teiseks looge pildi PDF-i laadimiseks failiklassi eksemplar
- Kolmandaks kutsuge sisend-PDF-i pilvmällu üleslaadimiseks välja meetod uploadFile(…).
- Kuna meie kujutise PDF sisaldab ingliskeelset teksti, peame looma stringiobjekti, millel on väärtus “eng”
- Lõpuks kutsuge meetod putSearchableDocument(…), mis nõuab argumentidena sisend-PDF-i ja keelekoodi.
Kui kood on edukalt käivitatud, salvestatakse otsitav PDF pilvmällu
try
{
// Hankige ClientID ja ClientSecret saidilt https://dashboard.aspose.cloud/
String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
// loo PdfApi eksemplar
PdfApi pdfApi = new PdfApi(clientSecret,clientId);
// Sisesta pilt PDF-dokument
String name = "ScannedPDF.pdf";
// Laadige fail kohalikust süsteemist
File file = new File(name);
// laadige fail üles pilvesalvestusse
FilesUploadResult uploadResponse = pdfApi.uploadFile(name, file, null);
// pildi PDF-is kasutatavad keeled
String lang = "eng";
// teostage OCR-i pildil PDF-dokumendil
AsposeResponse response = pdfApi.putSearchableDocument(name, null, null, lang);
// printida eduteade
System.out.println("OCR PDF successfull !");
}catch(Exception ex)
{
System.out.println(ex.getMessage());
}
Ülaltoodud näites kasutatud skannitud PDF-i saab alla laadida saidilt BusinessReport.pdf ja tulemuseks oleva otsitava PDF-faili saidilt Converted.pdf
OCR võrgus, kasutades cURL-i käske
cURL-i käsud on üks mugavamaid viise REST API-de kutsumiseks. Nii et selles jaotises kasutame võrgus OCR-i jaoks cURL-i käske. Eeltingimusena peame järgmise käsu täitmisel esmalt genereerima JWT-pääsuluba (põhineb kliendi mandaatidel).
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
Kui meil on JWT-märk, kasutage järgmist käsku, et teostada OCR võrgus ja teisendada Image PDF otsitavaks PDF-dokumendiks. Saadud fail salvestatakse seejärel pilvesalvestusse.
curl -v -X GET "https://api.aspose.cloud/v4.0/words/Resultant.docx?format=TIFF&outPath=converted.tiff" \
-H "accept: application/octet-stream" \
-H "Authorization: Bearer <JWT Token>"
Järeldus
OCR-i teostamine PDF-failidel on nende dokumentide täieliku potentsiaali avamiseks kriitiline protsess. Pilvepõhiste OCR-tööriistade (nt Aspose.PDF Cloud SDK for Java) abil saab seda protsessi lihtsustada ja automatiseerida, säästes aega ja suurendades tootlikkust. OCR-i võimsust ära kasutades saavad ettevõtted ja arendajad muuta pildipõhised PDF-failid otsitavateks PDF-failideks, muutes nende otsimise, redigeerimise ja jagamise lihtsamaks. On selge, et see API pakub PDF-failidega töötamiseks mitmeid võimsaid funktsioone ja võimalusi. Järgides selles tehnilises ajaveebis esitatud samm-sammulisi juhiseid, saate alustada OCR-iga PDF-failides ja viia oma dokumendi töövoog järgmisele tasemele.
Võite kaaluda API-le juurdepääsu loomist veebibrauseris, kasutades swaggeri liidest. Lisaks, kuna meie SDK-d on loodud MIT-litsentsi alusel, saab kogu lähtekoodi alla laadida saidilt GitHub. Kui teil tekib API kasutamisel probleeme, võtke meiega ühendust tasuta tootetoe foorumi kaudu.
seotud artiklid
Selle kohta lisateabe saamiseks soovitame tungivalt külastada järgmisi linke: