Изображение от PDF към PDF с възможност за търсене

Преобразувайте PDF изображения в PDF с възможност за търсене

В днешния свят, управляван от данни, PDF се превърнаха в незаменим формат за съхранение и споделяне на документи. Въпреки това, не всички PDF файлове могат лесно да се търсят или редактират, особено тези, които са базирани на изображения. Когато работите с документи, наистина е трудно да копирате/извлечете текстова информация за по-нататъшна манипулация. За щастие, със силата на технологията за оптично разпознаване на символи (OCR), можете лесно да конвертирате PDF файлове с изображения в PDF файлове с възможност за търсене. В този технически блог ще проучим как да конвертирате OCR PDF в PDF с възможност за търсене, като използвате различни техники, със специален фокус върху REST API. Ще обсъдим също как да извличате текст от OCR PDF файлове, като ви даваме цялостно разбиране за това как да използвате OCR технологията, за да отключите пълния потенциал на вашите PDF документи.

OCR PDF с помощта на Java SDK

Aspose.PDF Cloud SDK за Java е мощен облачен API, който предлага широк набор от функции и възможности за работа с PDF документи. Една от ключовите му функции е възможността за извършване на OCR върху PDF файлове, което може значително да опрости процеса на извличане на текст от базирани на изображения PDF файлове и създаване на PDF файлове с възможност за търсене. Със своя удобен за потребителя интерфейс и изчерпателна документация, този SDK улеснява автоматизирането на процеса на извършване на OCR върху PDF файлове, спестявайки време и увеличавайки продуктивността.

Освен това, този базиран на облака API е проектиран да обработва голямо разнообразие от входни формати и дори може да разпознава ръкописен текст, което го прави отличен избор за фирми и разработчици, които искат да рационализират своя работен поток с документи. Сега първата стъпка е да добавите неговата референция в проекта на Java, като добавите следните подробности в pom.xml на проекта за изграждане на maven.

<repositories> 
    <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>http://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-pdf-cloud</artifactId>
        <version>21.11.0</version>
    </dependency>
</dependencies>

Ако нямате съществуващ акаунт, трябва да създадете безплатен акаунт в Aspose Cloud. Влезте с новосъздадения акаунт и потърсете/създайте клиентски идентификатор и клиентска тайна в Cloud Dashboard. Тези подробности са необходими в следващите раздели.

Сканиран PDF към PDF с възможност за търсене с помощта на Java

Този раздел обяснява подробностите за това как да конвертирате сканиран PDF в PDF с възможност за търсене с помощта на Java кодов фрагмент. Моля, обърнете внимание, че Java Cloud SDK поддържа разпознаването на следните езици: eng, ara, bel, ben, bul, ces, dan, deu, ell, fin, fra, heb, hin, ind, isl, ita, jpn, kor, nld , nor, pol, por, ron, rus, spa, swe, tha, tur, ukr, vie, chisim, chitra или тяхната комбинация напр. eng,rus.

  • Първо трябва да създадем обект на PdfApi, където предаваме ClientID и Client secret подробности като аргументи
  • Второ, създайте екземпляр на File class, за да заредите PDF изображението
  • Трето, извикайте метода uploadFile(…), за да качите входния PDF файл в облачното хранилище
  • Тъй като нашият PDF файл с изображение съдържа английски текст, трябва да създадем низов обект със стойност „eng“
  • Накрая извикайте метода putSearchableDocument(…), който изисква входен PDF и езиков код като аргументи.

След като кодът бъде успешно изпълнен, PDF файлът с възможност за търсене се съхранява в облачно хранилище

try
    {
    // Вземете ClientID и ClientSecret от https://dashboard.aspose.cloud/
    String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
    String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
	  
    // createPdfApi екземпляр
    PdfApi pdfApi = new PdfApi(clientSecret,clientId);
	    				
    // входно изображение PDF документ
    String name = "ScannedPDF.pdf";	        
	    			    
    // Заредете файла от локалната система
    File file = new File(name);
    // качете файла в облачно хранилище
    FilesUploadResult uploadResponse = pdfApi.uploadFile(name, file, null);
	    				
    // езиците, използвани в PDF изображения
    String lang = "eng";
	    				
    //  извършете OCR на PDF документ с изображение
    AsposeResponse response = pdfApi.putSearchableDocument(name, null, null, lang);
	    
    // съобщение за успешно отпечатване
    System.out.println("OCR PDF successfull !");
    }catch(Exception ex)
    {
        System.out.println(ex.getMessage());
    }
Изображение от PDF към PDF с възможност за търсене

Изображение 1: - Визуализация на PDF с възможност за търсене

Сканираният PDF файл, използван в горния пример, може да бъде изтеглен от BusinessReport.pdf, а полученият PDF файл с възможност за търсене от Converted.pdf

OCR онлайн с помощта на cURL команди

Командите cURL са един от удобните подходи за извикване на REST API. Така че в този раздел ще използваме командите cURL за OCR онлайн. Сега, като предпоставка, трябва първо да генерираме JWT токен за достъп (базиран на клиентски идентификационни данни), докато изпълняваме следната команда.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

След като имаме JWT токен, моля, изпълнете следната команда, за да изпълните OCR онлайн и да конвертирате PDF изображение в PDF документ с възможност за търсене. След това полученият файл се съхранява в облачно хранилище.

curl -v -X GET "https://api.aspose.cloud/v4.0/words/Resultant.docx?format=TIFF&outPath=converted.tiff" \
-H  "accept: application/octet-stream" \
-H  "Authorization: Bearer <JWT Token>"

Заключение

Извършването на OCR върху PDF файлове е критичен процес за отключване на пълния потенциал на тези документи. С помощта на базирани в облак OCR инструменти като Aspose.PDF Cloud SDK за Java, този процес може да бъде опростен и автоматизиран, спестявайки време и увеличавайки продуктивността. Използвайки силата на OCR, фирмите и разработчиците могат да трансформират базирани на изображения PDF файлове в PDF файлове с възможност за търсене, което ги прави по-лесни за търсене, редактиране и споделяне. Ясно е, че този API предлага набор от мощни функции и възможности за работа с PDF файлове. Като следвате ръководствата стъпка по стъпка, предоставени в този технически блог, можете да започнете с OCR на PDF файлове и да изведете работния си процес на документи на следващото ниво.

Може да помислите за достъп до API в рамките на уеб браузър, като използвате интерфейса на swagger. Освен това, тъй като нашите SDK са изградени под лиценз на MIT, така че пълният изходен код може да бъде изтеглен от GitHub. В случай, че срещнете проблеми, докато използвате API, не се колебайте да се свържете с нас чрез безплатен форум за поддръжка на продукти.

Свързани статии

Силно препоръчваме да посетите следните връзки, за да научите повече за: