матнро аз PDF хориҷ кунед

Матнро аз PDF дар Java истихроҷ кунед

Мо ҳама медонем, ки файлҳои PDF яке аз форматҳои рақамии муҳимтарин ва васеъ истифодашаванда мебошанд, ки барои пешниҳод ва мубодилаи ҳуҷҷатҳо, новобаста аз нармафзор, сахтафзор ё системаи амалиётӣ боэътимод истифода мешаванд. Бо вуҷуди ин, дар баъзе сенарияҳо, мо шояд манфиатдор бошем, ки иқтибос аз файлҳои калони PDF гирем. Ё, мо метавонем талаботе дошта бошем, ки PDF-ро ба матн онлайн захира кунем. Ҳамин тавр, дар ин мақола мо тафсилотро дар бораи чӣ гуна таҳия кардани табдилдиҳандаи PDF ба матн бо истифода аз Java REST API омӯхта истодаем.

API Generator PDF

Барои тавлиди ҳуҷҷатҳои PDF бо истифода аз қолабҳо ва ё аз сифр бо истифода аз REST API мо фишанг гиред. Ҳамзамон, API инчунин ба шумо имкон медиҳад, ки файлҳои PDF-ро ба дигар форматҳои дастгиришаванда таҳрир ва табдил диҳед. Шумо инчунин метавонед бартариҳои истихроҷи матн аз PDF, рамзкушоӣ ва якҷоя кардани файлҳои PDF бо истифода аз Java Cloud SDK истифода баред. Ҳоло, барои истифодаи Aspose.PDF Cloud SDK for Java, мо бояд истинодро дар замимаи Java-и худ бо ворид кардани тафсилоти зерин дар pom.xml (лоиҳаи сохти навъи maven) илова кунем.

<repositories> 
    <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>http://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-cloud-pdf</artifactId>
        <version>21.11.0</version>
        <scope>compile</scope>
    </dependency>
</dependencies>

Пас аз насб, мо бояд дар Cloud Dashboard ҳисоби ройгон эҷод кунем ва маълумоти шахсии муштарӣ гирем.

Бо истифода аз Java матнро аз PDF хориҷ кунед

Биёед тафсилотро барои истихроҷи матн аз PDF бо истифода аз Java Cloud SDK омӯзем. Дар ин мисол, мо вуруди зеринро истифода мебарем PdfWithTable.pdf файл.

pdf ба матни ocr

Тасвир 1: - Файли вуруд барои PDF ба истихроҷи матн.

pdf ба матни ocr

Тасвири 2: - Матнро аз пешнамоиши PDF хориҷ кунед

// барои мисолҳои бештар, лутфан ташриф оред https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-java/tree/master/Examples/src/main/java/com/aspose/asposecloudpdf/examples

try
    {
    // ClientID ва ClientSecret -ро аз https://dashboard.aspose.cloud/ гиред
    String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
    String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
		    
    // як мисоли PdfApi эҷод кунед
    PdfApi pdfApi = new PdfApi(clientSecret,clientId);
    // номи ҳуҷҷати воридшудаи PDF
    String name = "PdfWithTable.pdf";
		        
    // мундариҷаи файли PDF-ро хонед
    File file = new File(name); 
    // PDF ба анбори абр бор кунед
    pdfApi.uploadFile("input.pdf", file, null);
		        
    // X-координати кунҷи поёнии чап
    Double LLX = 500.0;
    // Y - координати кунҷи поёни чап.
    Double LLY = 500.0;
    // X - координати кунҷи рости боло.
    Double URX = 800.0;
    // Y - координати кунҷи рости боло.
    Double URY = 800.0;
			       
    // ба API занг занед, то PDF-ро ба матн табдил диҳед
    TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);    
		    
    // Гузариш тавассути пайдоиши матни инфиродӣ
    for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
    {
        // мундариҷаи матнро дар консол нависед
        System.out.println(response.getTextOccurrences().getList().get(counter).getText());
    }
		  
    System.out.println("Extract Text from PDF successful !");
    }catch(Exception ex)
    {
        System.out.println(ex);
    }

Акнун биёед кӯшиш кунем, ки пораи рамзи дар боло зикршударо бифаҳмем:

PdfApi pdfApi = new PdfApi(clientSecret,clientId);

Ҳангоми интиқоли эътимодномаҳои фардӣ ҳамчун далелҳо як мисоли PdfApi эҷод кунед.

File file = new File(name); 
pdfApi.uploadFile("input.pdf", file, null);

PDF-и воридшударо бо истифода аз объекти File хонед ва онро бо усули uploadFile(…) синфи PdfAPi ба анбори абр бор кунед. Лутфан қайд кунед, ки файл бо номи дар усули uploadFile истифодашуда бор карда шудааст.

TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);    

Акнун ба усули getText(..) занг занед, ки дар он мо номи файли дохилшудаи PDF, андозаҳои росткунҷаро дар саҳифа муайян мекунем, ки аз он мо бояд мундариҷаи матниро ҷудо кунем ва мундариҷаи истихроҷшударо ба объекти TextRectsResponse баргардонем.

response.getTextOccurrences().getList().get(counter).getText()

Ниҳоят, барои чоп кардани мундариҷаи матни истихроҷшуда, мо тавассути тамоми TextOccurances такрор мекунем ва онҳоро дар консол намоиш медиҳем.

PDF ба матн бо истифода аз фармонҳои cURL

Ба ғайр аз порчаи коди Java, мо инчунин метавонем амалиёти pdftotext-ро бо истифода аз фармонҳои cURL иҷро кунем. Ҳоло, яке аз шартҳои асосии ин равиш тавлиди аломати дастрасии JWT (дар асоси маълумоти муштарӣ) бо истифода аз фармони зерин мебошад.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Пас аз тавлиди JWT, лутфан фармони зеринро иҷро кунед, то матнро аз файли PDF, ки аллакай дар анбори абр мавҷуд аст, гиред.

curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>"

Маслиҳати зуд

Дар ҷустуҷӯи барномаи ройгони PDF ба матн! Лутфан [PDF Parser]-и моро истифода баред (https://products.aspose.app/pdf/parser).

Мулохизахои чамъбастй

Хулоса, истихроҷи матн аз файлҳои PDF бо истифода аз Java метавонад як ҳалли пурқувват барои онҳое бошад, ки мехоҳанд коркард ва таҳлили маълумотро автоматӣ кунанд. Бо ёрии ин дастур, шумо ҳоло барои бунёд кардан заминаи мустаҳкам доред ва метавонед ҳалли худро дар асоси Java барои истихроҷи матн аз ҳуҷҷатҳои PDF ба осонӣ татбиқ кунед. Новобаста аз он ки шумо мехоҳед матнро барои таҳлили додаҳо, омӯзиши мошинсозӣ ё ягон ҳадафи дигар истихроҷ кунед, Java барои эҳтиёҷоти шумо платформаи фасеҳ ва боэътимод пешкаш мекунад. Пас, пеш равед ва малакаҳои нав ба даст овардаатонро озмоиш кунед!

Агар шумо хоҳед, ки дигар хусусиятҳои ҷолиберо, ки API пешниҳод мекунанд, омӯзед, лутфан Ҳуҷҷатҳои Маҳсулотро омӯзед. Ниҳоят, агар шумо ҳангоми истифодаи API бо ягон мушкилот рӯ ба рӯ шавед ё ягон дархости марбута дошта бошед, лутфан бо мо тавассути ройгон Форуми дастгирии маҳсулот тамос гиред.

Мақолаҳои марбут

Лутфан ба истиноди зерин муроҷиат кунед, то дар бораи маълумоти бештар маълумот гиред: