אין הייַנט ס דאַטן-געטריבן וועלט, PDFs האָבן ווערן אַ ינדיספּענסאַבאַל פֿאָרמאַט פֿאַר סטאָרינג און ייַנטיילונג דאָקומענטן. אָבער, ניט אַלע פּדפס זענען לייכט סעאַרטשאַבלע אָדער עדיטאַבלע, ספּעציעל די וואָס זענען בילד-באזירט. ווען איר האַנדלען מיט דאָקומענטן, עס איז טאַקע שווער צו נאָכמאַכן / עקסטראַקט קיין טעקסטשאַוואַל אינפֿאָרמאַציע פֿאַר ווייַטער מאַניפּיאַליישאַן. צומ גליק, מיט די מאַכט פון אָפּטיש טשאַראַקטער רעקאָגניטיאָן (OCR) טעכנאָלאָגיע, איר קענען גער בילד פּדפס אין סעאַרטשאַבלע פּדפס מיט יז. אין דעם טעכניש בלאָג, מיר וועלן ויספאָרשן ווי צו גער OCR PDF צו סעאַרטשאַבלע פּדף מיט פאַרשידן טעקניקס, מיט אַ ספּעציפיש פאָקוס אויף REST API. מיר וועלן אויך דיסקוטירן ווי צו עקסטראַקט טעקסט פון OCR PDFs, געבן איר אַ פולשטענדיק פארשטאנד פון ווי צו לעווערידזש OCR טעכנאָלאָגיע צו ופשליסן די פול פּאָטענציעל פון דיין פּדף דאָקומענטן.
OCR PDF ניצן Java SDK
Aspose.PDF Cloud SDK פֿאַר Java איז אַ שטאַרק וואָלקן-באזירט אַפּי וואָס אָפפערס אַ ברייט קייט פון פֿעיִקייטן און קייפּאַבילאַטיז פֿאַר ארבעטן מיט פּדף דאָקומענטן. איינער פון זייַן שליסל פאַנגקשאַנאַליטי איז די פיייקייט צו דורכפירן OCR אויף PDFs, וואָס קענען זייער פאַרפּאָשעטערן דעם פּראָצעס פון עקסטראַקטינג טעקסט פֿון בילד-באזירט פּדף און קריייטינג סעאַרטשאַבלע פּדף. מיט זיין באַניצער-פרייַנדלעך צובינד און פולשטענדיק דאַקיומענטיישאַן, דעם SDK מאכט עס גרינג צו אָטאַמייט דעם פּראָצעס פון דורכפירן OCR אויף PDFs, שפּאָרן צייט און ינקריסינג פּראָודאַקטיוויטי.
דערצו, דעם וואָלקן-באזירט אַפּי איז דיזיינד צו שעפּן אַ ברייט פאַרשיידנקייַט פון אַרייַנשרייַב פֿאָרמאַטירונגען און קענען אפילו דערקענען כאַנדריטאַן טעקסט, מאכן עס אַ ויסגעצייכנט ברירה פֿאַר געשעפטן און דעוועלאָפּערס וואָס זוכן צו סטרימליין זייער דאָקומענט וואָרקפלאָוו. איצט דער ערשטער שריט איז צו לייגן זיין רעפֿערענץ אין Java פּרויעקט דורך אַדינג די פאלגענדע דעטאַילס אין pom.xml פון Maven build פּרויעקט.
<repositories>
<repository>
<id>aspose-cloud</id>
<name>artifact.aspose-cloud-releases</name>
<url>https://artifact.aspose.cloud/repo</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf-cloud</artifactId>
<version>21.11.0</version>
</dependency>
</dependencies>
אויב איר טאָן ניט האָבן אַ יגזיסטינג חשבון, איר דאַרפֿן צו שאַפֿן אַ פריי חשבון איבער Aspose Cloud. קלאָץ אין מיט אַ נייַע באשאפן חשבון און קוק / שאַפֿן קליענט שייַן און קליענט סוד אין Cloud Dashboard. די דעטאַילס זענען פארלאנגט אין סאַבסאַקוואַנט סעקשאַנז.
סקאַנד פּדף צו סעאַרטשאַבלע פּדף מיט Java
דער אָפּטיילונג דערקלערט די דעטאַילס וועגן ווי צו גער סקאַנד פּדף צו סעאַרטשאַבלע פּדף ניצן Java קאָד סניפּ. ביטע טאָן אַז Java Cloud SDK שטיצט די דערקענונג פון די פאלגענדע שפּראַכן: eng, ara, bel, ben, bul, ces, dan, deu, ell, fin, fra, heb, hin, ind, isl, ita, jpn, kor, nld , אדער, פּאָל, פּאָר, ראָן, רוס, ספּאַ, סווע, טהאַ, טור, וקר, וויע, טשיסים, טשיטראַ אָדער זייער קאָמבינאַציע, למשל ענג,רוס.
- ערשטער מיר דאַרפֿן צו שאַפֿן אַ כייפעץ פון PdfApi, ווו מיר פאָרן ClientID און Client סוד דעטאַילס ווי אַרגומענטן
- צווייטנס, שאַפֿן אַ בייַשפּיל פון טעקע קלאַס צו לאָדן די בילד פּדף
- דריטנס, רופן דעם אופֿן ופּלאָאַדפילע (…) צו צופֿעליקער די אַרייַנשרייַב פּדף צו די וואָלקן סטאָרידזש
- ווי אונדזער בילד פּדף כּולל ענגליש טעקסט, אַזוי מיר דאַרפֿן צו שאַפֿן אַ שטריקל כייפעץ מיט אַ ווערט “ענג”
- צום סוף, רופן דעם אופֿן putSearchableDocument (…), וואָס ריקווייערז אַ אַרייַנשרייַב פּדף און אַ שפּראַך קאָד ווי אַרגומענטן.
אַמאָל די קאָד איז הצלחה עקסאַקיוטאַד, די סעאַרטשאַבלע פּדף איז סטאָרד אין וואָלקן סטאָרידזש
try
{
// באַקומען ClientID און ClientSecret פֿון https://dashboard.aspose.cloud/
String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
// שאַפֿן PdfApi בייַשפּיל
PdfApi pdfApi = new PdfApi(clientSecret,clientId);
// אַרייַנשרייַב בילד פּדף דאָקומענט
String name = "ScannedPDF.pdf";
// לאָדן די טעקע פֿון די היגע סיסטעם
File file = new File(name);
// ופּלאָאַד די טעקע צו וואָלקן סטאָרידזש
FilesUploadResult uploadResponse = pdfApi.uploadFile(name, file, null);
// די שפּראַכן געניצט אין בילד פּדף
String lang = "eng";
// דורכפירן די OCR אויף בילד PDF דאָקומענט
AsposeResponse response = pdfApi.putSearchableDocument(name, null, null, lang);
// דרוקן הצלחה אָנזאָג
System.out.println("OCR PDF successfull !");
}catch(Exception ex)
{
System.out.println(ex.getMessage());
}
די סקאַנד פּדף געניצט אין די אויבן ביישפּיל קענען זיין דאַונלאָודיד פֿון BusinessReport.pdf און דער רעזולטאַט סעאַרטשאַבלע פּדף פֿון Converted.pdf
OCR אָנליין ניצן cURL קאַמאַנדז
די cURL קאַמאַנדז זענען איינער פון די באַקוועם אַפּראָוטשיז צו רופן די REST APIs. אַזוי אין דעם אָפּטיילונג, מיר וועלן נוצן די cURL קאַמאַנדז פֿאַר OCR אָנליין. איצט, ווי אַ פּרירעקוואַזאַט, מיר דאַרפֿן צו ערשטער דזשענערייט אַ JWT אַקסעס סימען (באזירט אויף קליענט קראַדענטשאַלז) בשעת עקסאַקיוטינג די פאלגענדע באַפֿעל.
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
אַמאָל מיר האָבן JWT טאָקען, ביטע די פאלגענדע באַפֿעל צו דורכפירן OCR אָנליין און גער בילד פּדף צו סעאַרטשאַבלע פּדף דאָקומענט. דער רעזולטאַט טעקע איז דעמאָלט סטאָרד אין וואָלקן סטאָרידזש.
curl -v -X GET "https://api.aspose.cloud/v4.0/words/Resultant.docx?format=TIFF&outPath=converted.tiff" \
-H "accept: application/octet-stream" \
-H "Authorization: Bearer <JWT Token>"
מסקנא
Performing OCR אויף PDFs איז אַ קריטיש פּראָצעס פֿאַר אַנלאַקינג די פול פּאָטענציעל פון די דאָקומענטן. מיט די הילף פון וואָלקן-באזירט OCR מכשירים ווי Aspose.PDF Cloud SDK פֿאַר Java, דעם פּראָצעס קענען זיין סימפּלאַפייד און אָטאַמייטיד, שפּאָרן צייט און ינקריסינג פּראָודאַקטיוויטי. דורך לעווערידזשינג די מאַכט פון OCR, געשעפטן און דעוועלאָפּערס קענען יבערמאַכן בילד-באזירט פּדף אין סעאַרטשאַבלע פּדף, מאכן זיי גרינגער צו זוכן, רעדאַגירן און טיילן. עס איז קלאָר אַז דער אַפּי אָפפערס אַ קייט פון שטאַרק פֿעיִקייטן און קייפּאַבילאַטיז פֿאַר ארבעטן מיט פּדף. דורך נאָכפאָלגן די שריט-דורך-שריט פירער צוגעשטעלט אין דעם טעכניש בלאָג, איר קענען אָנהייבן מיט OCR אויף פּדפס און נעמען דיין דאָקומענט וואָרקפלאָוו צו דער ווייַטער מדרגה.
איר קען באַטראַכטן אַקסעס די API אין אַ וועב בלעטערער ניצן די סוואַגער צובינד. דערצו, ווי אונדזער SDKs זענען געבויט אונטער אַ MIT דערלויבעניש, אַזוי די גאַנץ מקור קאָד קענען זיין דאַונלאָודיד פֿון GitHub. אויב איר טרעפן קיין ישוז ווען איר נוצן די אַפּי, ביטע פילן פריי צו קאָנטאַקט אונדז דורך פריי פּראָדוקט שטיצן פאָרום.
פֿאַרבונדענע אַרטיקלען
מיר רעקאָמענדירן צו באַזוכן די פאלגענדע לינקס צו לערנען מער וועגן: