Тасвири PDF ба PDF-и ҷустуҷӯшаванда

Табдил додани тасвири PDF ба PDF-и ҷустуҷӯшаванда

Дар ҷаҳони имрӯза, ки ба маълумот асос ёфтааст, PDFs ба формати ҳатмӣ барои нигоҳдорӣ ва мубодилаи ҳуҷҷатҳо табдил ёфтааст. Аммо, на ҳама PDF-ҳоро ба осонӣ ҷустуҷӯ кардан ё таҳрир кардан мумкин аст, махсусан онҳое, ки ба тасвир асос ёфтаанд. Ҳангоми кор бо ҳуҷҷатҳо, нусхабардорӣ/баровардани ҳама гуна иттилооти матнӣ барои коркарди минбаъда воқеан душвор аст. Хушбахтона, бо қудрати технологияи шинохти оптикии аломатҳо (OCR), шумо метавонед PDF-ҳои тасвириро ба осонӣ ба PDF-ҳои ҷустуҷӯшаванда табдил диҳед. Дар ин блоги техникӣ, мо меомӯзем, ки чӣ гуна табдил додани OCR PDF ба PDF-и ҷустуҷӯшаванда бо истифода аз усулҳои гуногун бо таваҷҷӯҳи махсус ба REST API. Мо инчунин чӣ гуна истихроҷи матнро аз PDF-ҳои OCR муҳокима хоҳем кард ва ба шумо дар бораи чӣ гуна истифода бурдани технологияи OCR барои кушодани иқтидори пурраи ҳуҷҷатҳои PDF-и худ фаҳмиши ҳамаҷониба медиҳем.

OCR PDF бо истифода аз Java SDK

Aspose.PDF Cloud SDK for Java API-и пуриқтидори абрӣ аст, ки доираи васеи хусусиятҳо ва қобилиятҳоро барои кор бо ҳуҷҷатҳои PDF пешниҳод мекунад. Яке аз вазифаҳои асосии он қобилияти иҷрои OCR дар PDF мебошад, ки метавонад раванди истихроҷи матнро аз PDF-ҳои ба тасвир асосёфта ва эҷоди PDF-ҳои ҷустуҷӯшаванда хеле содда кунад. Бо интерфейси ба истифодабаранда дӯстона ва ҳуҷҷатҳои ҳамаҷонибаи худ, ин SDK автоматикунонии раванди иҷрои OCR дар PDF, сарфаи вақт ва баланд бардоштани маҳсулнокӣ осон мекунад.

Ғайр аз он, ин API-и ба абр асосёфта барои коркарди форматҳои гуногуни вуруд тарҳрезӣ шудааст ва ҳатто метавонад матни дастнависро эътироф кунад, ки онро барои тиҷорат ва таҳиягарон, ки мехоҳанд ҷараёни кории ҳуҷҷатҳои худро ба тартиб оваранд, интихоби олӣ месозад. Ҳоло қадами аввал ин илова кардани истинод ба лоиҳаи Java тавассути илова кардани тафсилоти зерин дар pom.xml лоиҳаи сохтани maven мебошад.

<repositories> 
    <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>http://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-pdf-cloud</artifactId>
        <version>21.11.0</version>
    </dependency>
</dependencies>

Агар шумо ҳисоби мавҷуда надошта бошед, шумо бояд тавассути Aspose Cloud ҳисоби ройгон эҷод кунед. Бо истифода аз ҳисоби навтаъсис ворид шавед ва дар Cloud Dashboard ID-и муштарӣ ва Сирри муштариро ҷустуҷӯ/эҷод кунед. Ин тафсилот дар бобҳои минбаъда талаб карда мешаванд.

PDF-и сканшуда ба PDF-и ҷустуҷӯшаванда бо истифода аз Java

Ин бахш тафсилотро дар бораи чӣ гуна табдил додани PDF-и сканшуда ба PDF-и ҷустуҷӯшаванда бо истифода аз порчаи коди Java шарҳ медиҳад. Лутфан таваҷҷӯҳ намоед, ки Java Cloud SDK эътирофи забонҳои зеринро дастгирӣ мекунад: eng, ara, bel, ben, bul, ces, dan, deu, ell, fin, fra, heb, hin, ind, isl, ita, jpn, kor, nld , nor, pol, por, ron, rus, spa, swe, tha, tur, ukr, vie, chisim, chitra ё омезиши онҳо, масалан, eng, rus.

  • Аввалан мо бояд як объекти PdfApi эҷод кунем, ки дар он мо тафсилоти махфии ClientID ва Client-ро ҳамчун далел мегузорем
  • Дуюм, як мисоли синфи File эҷод кунед, то тасвири PDF-ро бор кунед
  • Сеюм, ба усули uploadFile(…) занг занед, то PDF-и воридшударо ба анбори абр бор кунад
  • Азбаски PDF тасвири мо матни англисиро дар бар мегирад, аз ин рӯ мо бояд объекти сатреро созем, ки дорои арзиши “eng” мебошад.
  • Дар ниҳоят, усули putSearchableDocument(…) -ро даъват кунед, ки ҳамчун далелҳо PDF-и вуруд ва рамзи забонро талаб мекунад.

Пас аз бомуваффақият иҷро шудани код, PDF-и ҷустуҷӯшаванда дар анбори абр нигоҳ дошта мешавад

try
    {
    // ClientID ва ClientSecret -ро аз https://dashboard.aspose.cloud/ гиред
    String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
    String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
	  
    // мисоли createPdfApi
    PdfApi pdfApi = new PdfApi(clientSecret,clientId);
	    				
    // ҳуҷҷати PDF тасвири вуруд
    String name = "ScannedPDF.pdf";	        
	    			    
    // Файлро аз системаи маҳаллӣ бор кунед
    File file = new File(name);
    // файлро ба анбори абр бор кунед
    FilesUploadResult uploadResponse = pdfApi.uploadFile(name, file, null);
	    				
    // забонҳое, ки дар тасвири PDF истифода мешаванд
    String lang = "eng";
	    				
    //  OCR-ро дар ҳуҷҷати тасвирии PDF иҷро кунед
    AsposeResponse response = pdfApi.putSearchableDocument(name, null, null, lang);
	    
    // паёми муваффақият чоп кунед
    System.out.println("OCR PDF successfull !");
    }catch(Exception ex)
    {
        System.out.println(ex.getMessage());
    }
Тасвири PDF ба PDF-и ҷустуҷӯшаванда

Тасвир 1: - Пешнамоиши PDF-и ҷустуҷӯшаванда

PDF-и сканшудае, ки дар мисоли боло истифода шудааст, мумкин аст аз BusinessReport.pdf ва PDF-и дар натиҷаи ҷустуҷӯшаванда аз Converted.pdf зеркашӣ карда шавад.

OCR Online бо истифода аз фармонҳои cURL

Фармонҳои cURL яке аз равишҳои мувофиқ барои даъват кардани API-ҳои REST мебошанд. Ҳамин тавр, дар ин бахш мо фармонҳои cURL-ро барои OCR онлайн истифода мебарем. Ҳоло, ҳамчун шарти ҳатмӣ, мо бояд аввал ҳангоми иҷрои фармони зерин аломати дастрасии JWT (дар асоси маълумоти муштарӣ) тавлид кунем.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Вақте ки мо аломати JWT дорем, лутфан фармони зеринро иҷро кунед, то OCR-ро онлайн иҷро кунед ва тасвири PDF-ро ба ҳуҷҷати ҷустуҷӯшавандаи PDF табдил диҳед. Пас аз он файли натиҷа дар анбори абр нигоҳ дошта мешавад.

curl -v -X GET "https://api.aspose.cloud/v4.0/words/Resultant.docx?format=TIFF&outPath=converted.tiff" \
-H  "accept: application/octet-stream" \
-H  "Authorization: Bearer <JWT Token>"

Хулоса

Иҷрои OCR дар PDF як раванди муҳим барои кушодани иқтидори пурраи ин ҳуҷҷатҳо мебошад. Бо ёрии абзорҳои абрии OCR, ба монанди Aspose.PDF Cloud SDK for Java, ин равандро метавон содда ва автоматӣ кард, ки вақтро сарфа мекунад ва маҳсулнокии онро афзоиш медиҳад. Бо истифода аз қудрати OCR, корхонаҳо ва таҳиягарон метавонанд PDF-ҳои ба тасвир асосёфтаро ба PDF-ҳои ҷустуҷӯшаванда табдил дода, ҷустуҷӯ, таҳрир ва мубодилаи онҳоро осонтар кунанд. Маълум аст, ки ин API як қатор хусусиятҳо ва қобилиятҳои пурқувватро барои кор бо PDF пешниҳод мекунад. Бо риояи дастурҳои зина ба зина дар ин блоги техникӣ, шумо метавонед бо OCR дар PDFҳо оғоз кунед ва ҷараёни кории ҳуҷҷатҳои худро ба сатҳи оянда бардоред.

Шумо метавонед дастрасӣ ба API дар дохили браузери веб бо истифода аз интерфейси swagger баррасӣ кунед. Ғайр аз он, азбаски SDK-ҳои мо дар зери иҷозатномаи MIT сохта шудаанд, аз ин рӯ рамзи пурраи сарчашмаро аз GitHub зеркашӣ кардан мумкин аст. Агар ҳангоми истифодаи API бо ягон мушкилот рӯ ба рӯ шавед, лутфан бо мо тавассути форуми дастгирии маҳсулоти ройгон тамос гиред.

Мақолаҳои марбут

Мо тавсия медиҳем, ки ба истиноди зерин муроҷиат кунед, то дар бораи маълумоти бештар маълумот гиред: