עקסטראַקט טעקסט פון PDF

עקסטראַקט טעקסט פון פּדף אין ז’אבא

מיר אַלע וויסן אַז PDF טעקעס זענען איינער פון די מערסט וויכטיק און וויידלי געוויינט דיגיטאַל פֿאָרמאַטירונגען געניצט צו פאָרשטעלן און וועקסל דאָקומענטן רילייאַבלי, פרייַ פון ווייכווארג, ייַזנוואַרג אָדער אָפּערייטינג סיסטעם. אָבער, אין עטלעכע סינעריאָוז, מיר קען זיין אינטערעסירט צו באַקומען אַן עקסערפּט פון גרויס פּדף טעקעס. אָדער, מיר קען האָבן אַ פאָדערונג צו ראַטעווען די PDF צו טעקסט אָנליין. אין דעם אַרטיקל, מיר וועלן ויספאָרשן די דעטאַילס וועגן ווי צו אַנטוויקלען PDF צו טעקסט קאַנווערטער מיט Java REST API.

פּדף גענעראַטאָר אַפּי

באַקומען די ליווערידזש צו דזשענערייט פּדף דאָקומענטן מיט טעמפּלאַטעס אָדער פֿון קראַצן מיט אונדזער REST API. אין דער זעלביקער צייט, די API אויך ינייבאַלז איר צו רעדאַגירן און יבערמאַכן די פּדף טעקעס צו אנדערע געשטיצט פֿאָרמאַטירונגען. איר קענט אויך נעמען די בענעפיץ פון עקסטראַקט טעקסט פֿון פּדף, דעקריפּטינג און צונויפגיסן פּדף טעקעס מיט Java Cloud SDK. איצט, אין סדר צו נוצן די Aspose.PDF Cloud SDK פֿאַר Java, מיר דאַרפֿן צו לייגן זיין רעפֿערענץ אין אונדזער Java אַפּלאַקיישאַן דורך אַרייַנגערעכנט די פאלגענדע דעטאַילס אין pom.xml (מאַווען בויען טיפּ פּרויעקט).

<repositories> 
    <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>http://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-cloud-pdf</artifactId>
        <version>21.11.0</version>
        <scope>compile</scope>
    </dependency>
</dependencies>

נאָך די ינסטאַלירונג, מיר דאַרפֿן צו שאַפֿן אַ פריי חשבון איבער [Cloud Dashboard] און באַקומען פערזענליכען קליענט קראַדענטשאַלז.

עקסטראַקט טעקסט פֿון פּדף מיט Java

לאָמיר ויספאָרשן די דעטאַילס צו עקסטראַקט טעקסט פֿון PDF מיט Java Cloud SDK. אין דעם בייַשפּיל, מיר וועלן נוצן די פאלגענדע אַרייַנשרייַב PdfWithTable.pdf טעקע.

pdf צו טעקסט ocr

בילד 1: - אַרייַנשרייַב טעקע פֿאַר פּדף צו טעקסט יקסטראַקשאַן.

pdf צו טעקסט ocr

בילד 2: - עקסטראַקט טעקסט פון פּדף פאָרויסיקע ווייַזונג

// פֿאַר מער ביישפילן, ביטע באַזוכן https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-java/tree/master/Examples/src/main/java/com/aspose/asposecloudpdf/examples

try
    {
    // באַקומען ClientID און ClientSecret פֿון https://dashboard.aspose.cloud/
    String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
    String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
		    
    // שאַפֿן אַ בייַשפּיל פון PdfApi
    PdfApi pdfApi = new PdfApi(clientSecret,clientId);
    // נאָמען פון אַרייַנשרייַב פּדף דאָקומענט
    String name = "PdfWithTable.pdf";
		        
    // לייענען די אינהאַלט פון אַרייַנשרייַב פּדף טעקע
    File file = new File(name); 
    // ופּלאָאַד פּדף צו וואָלקן סטאָרידזש
    pdfApi.uploadFile("input.pdf", file, null);
		        
    // X-קאָאָרדאַנאַט פון נידעריקער - לינקס ווינקל
    Double LLX = 500.0;
    // י - קאָואָרדאַנאַט פון נידעריקער-לינקס ווינקל.
    Double LLY = 500.0;
    // X - קאָואָרדאַנאַט פון אויבערשטער-רעכט ווינקל.
    Double URX = 800.0;
    // י - קאָואָרדאַנאַט פון אויבערשטער-רעכט ווינקל.
    Double URY = 800.0;
			       
    // רופן אַפּי צו קאָנווערט פּדף צו טעקסט
    TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);    
		    
    // דורכפאָר דורך יחיד טעקסט געשעעניש
    for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
    {
        // שרייַבן טעקסט אינהאַלט אין קאַנסאָול
        System.out.println(response.getTextOccurrences().getList().get(counter).getText());
    }
		  
    System.out.println("Extract Text from PDF successful !");
    }catch(Exception ex)
    {
        System.out.println(ex);
    }

איצט לאָזן אונדז פּרובירן צו פֿאַרשטיין די אויבן ספּעסיפיעד קאָד סניפּאַט:

PdfApi pdfApi = new PdfApi(clientSecret,clientId);

שאַפֿן אַ בייַשפּיל פון PdfApi בשעת פאָרן די פערזענליכען קראַדענטשאַלז ווי אַרגומענטן.

File file = new File(name); 
pdfApi.uploadFile("input.pdf", file, null);

לייענען די אַרייַנשרייַב פּדף ניצן טעקע אָבדזשעקט און צופֿעליקער עס צו וואָלקן סטאָרידזש ניצן די ופּלאָאַדפילע (…) אופֿן פון די PdfAPi קלאַס. ביטע טאָן אַז די טעקע איז ופּלאָאַדעד מיט די נאָמען געניצט אין ופּלאָאַדFile אופֿן.

TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);    

איצט רופן די getText (..) מעטאָד, ווו מיר ספּעציפיצירן די נאָמען פון אַרייַנשרייַב פּדף טעקע, רעקטאַנגגיאַלער דימענשאַנז אויף די בלאַט פון וואָס מיר דאַרפֿן צו עקסטראַקט די טעקסטשאַוואַל אינהאַלט און צוריקקומען די יקסטראַקטיד אינהאַלט צו TextRectsResponse כייפעץ.

response.getTextOccurrences().getList().get(counter).getText()

צום סוף, אין סדר צו דרוקן די יקסטראַקטיד טעקסט אינהאַלט, מיר וועלן יטערייט אַלע טעקסטאָקוראַנסעס און ווייַזן זיי אין קאַנסאָול.

פּדף צו טעקסט ניצן cURL קאַמאַנדז

אַחוץ דזשאַוואַ קאָד סניפּאַט, מיר קענען אויך דורכפירן פּדפטאָטעקסט אָפּעראַציע ניצן cURL קאַמאַנדז. איצט, איינער פון די פּרירעקוואַזאַט פֿאַר דעם צוגאַנג איז צו דזשענערייט אַ JWT אַקסעס סימען (באזירט אויף קליענט קראַדענטשאַלז) ניצן די פאלגענדע באַפֿעל.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

אַמאָל די JWT איז דזשענערייטאַד, ביטע ויספירן די פאלגענדע באַפֿעל צו עקסטראַקט טעקסט פון די PDF טעקע שוין בנימצא אין וואָלקן סטאָרידזש.

curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>"

שנעל עצה

איר זוכט פֿאַר פּדף צו טעקסט פריי אַפּ! פּרוּווט ניצן אונדזער [PDF פּאַרסער] (https://products.aspose.app/pdf/parser).

מסקנא

אין מסקנא, יקסטראַקטינג טעקסט פֿון פּדף טעקעס מיט Java קענען זיין אַ שטאַרק לייזונג פֿאַר יענע וואָס זוכן צו אָטאַמייט זייער דאַטן פּראַסעסינג און אַנאַליסיס דאַרף. מיט די הילף פון דעם פירער, איר איצט האָבן אַ האַרט יסוד צו בויען אויף און איר קענען לייכט ינסטרומענט דיין אייגענע Java-באזירט לייזונג פֿאַר טעקסט יקסטראַקשאַן פון פּדף דאָקומענטן. צי איר זוכט צו עקסטראַקט טעקסט פֿאַר דאַטן אַנאַליסיס, מאַשין לערנען אָדער קיין אנדערע ציל, Java גיט אַ פלעקסאַבאַל און פאַרלאָזלעך פּלאַטפאָרמע פֿאַר דיין דאַרף. אַזוי גיין פאָרויס און פּרובירן דיין ניי קונה סקילז!

אויב איר זענט אינטערעסירט צו ויספאָרשן אנדערע יקסייטינג פֿעיִקייטן געפֿינט דורך די אַפּי, ביטע ויספאָרשן די פּראָדוקט דאַקיומענטיישאַן. לעסאָף, אויב איר טרעפן קיין פּראָבלעם ווען איר נוצן די אַפּי, אָדער איר האָט קיין פֿאַרבונדענע אָנפֿרעג, ביטע פילן פריי צו קאָנטאַקט אונדז דורך פריי פּראָדוקט סופּפּאָרט פאָרום.

שייַכות אַרטיקלען

ביטע באַזוכן די פאלגענדע לינקס צו לערנען מער וועגן: