W dzisiejszym świecie opartym na danych PDF stały się niezbędnym formatem do przechowywania i udostępniania dokumentów. Jednak nie wszystkie pliki PDF można łatwo przeszukiwać lub edytować, zwłaszcza te, które są oparte na obrazach. Kiedy mamy do czynienia z dokumentami, naprawdę trudno jest skopiować/wyodrębnić jakiekolwiek informacje tekstowe w celu dalszej manipulacji. Na szczęście dzięki możliwościom technologii optycznego rozpoznawania znaków (OCR) można z łatwością konwertować pliki PDF z obrazami na pliki PDF z możliwością przeszukiwania. Na tym blogu technicznym przyjrzymy się, jak przekonwertować plik PDF OCR na plik PDF z możliwością wyszukiwania przy użyciu różnych technik, ze szczególnym uwzględnieniem interfejsu API REST. Omówimy również, jak wyodrębnić tekst z plików PDF OCR, dając Ci kompleksowe zrozumienie, jak wykorzystać technologię OCR, aby uwolnić pełny potencjał dokumentów PDF.
- OCR PDF przy użyciu Java SDK
- Zeskanowany plik PDF do przeszukiwalnego pliku PDF przy użyciu języka Java
- OCR Online przy użyciu poleceń cURL
OCR PDF przy użyciu Java SDK
Aspose.PDF Cloud SDK for Java to potężny oparty na chmurze interfejs API, który oferuje szeroki zakres funkcji i możliwości pracy z dokumentami PDF. Jedną z jego kluczowych funkcji jest możliwość wykonywania OCR na plikach PDF, co może znacznie uprościć proces wyodrębniania tekstu z plików PDF opartych na obrazach i tworzenia plików PDF z możliwością wyszukiwania. Dzięki przyjaznemu dla użytkownika interfejsowi i obszernej dokumentacji ten pakiet SDK ułatwia automatyzację procesu rozpoznawania OCR na plikach PDF, oszczędzając czas i zwiększając produktywność.
Co więcej, ten oparty na chmurze interfejs API został zaprojektowany do obsługi szerokiej gamy formatów wejściowych, a nawet może rozpoznawać tekst odręczny, co czyni go doskonałym wyborem dla firm i programistów, którzy chcą usprawnić obieg dokumentów. Teraz pierwszym krokiem jest dodanie jego referencji w projekcie Java poprzez dodanie następujących szczegółów w pom.xml projektu maven build.
<repositories>
<repository>
<id>aspose-cloud</id>
<name>artifact.aspose-cloud-releases</name>
<url>https://artifact.aspose.cloud/repo</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf-cloud</artifactId>
<version>21.11.0</version>
</dependency>
</dependencies>
Jeśli nie masz istniejącego konta, musisz utworzyć bezpłatne konto w Aspose Cloud. Zaloguj się przy użyciu nowo utworzonego konta i wyszukaj/utwórz identyfikator klienta i klucz tajny klienta w Cloud Dashboard. Te szczegóły są wymagane w kolejnych sekcjach.
Zeskanowany plik PDF do przeszukiwalnego pliku PDF przy użyciu języka Java
Ta sekcja zawiera szczegółowe informacje na temat konwertowania zeskanowanych plików PDF na pliki PDF z możliwością wyszukiwania za pomocą fragmentu kodu Java. Należy pamiętać, że Java Cloud SDK obsługuje rozpoznawanie następujących języków: eng, ara, bel, ben, bul, ces, dan, deu, ell, fin, fra, heb, hin, ind, isl, ita, jpn, kor, nld , nor, pol, por, ron, rus, spa, swe, tha, tur, ukr, vie, chisim, chitra lub ich kombinacja, np. eng, rus.
- Najpierw musimy utworzyć obiekt PdfApi, w którym jako argumenty przekazujemy ClientID i tajne dane klienta
- Po drugie, utwórz instancję klasy File, aby załadować obraz PDF
- Po trzecie, wywołaj metodę uploadFile(…), aby przesłać wejściowy plik PDF do magazynu w chmurze
- Ponieważ nasz obraz PDF zawiera tekst w języku angielskim, musimy utworzyć obiekt łańcuchowy o wartości „eng”
- Na koniec wywołaj metodę putSearchableDocument(…), która jako argumenty wymaga wejściowego pliku PDF i kodu języka.
Po pomyślnym wykonaniu kodu przeszukiwalny plik PDF jest przechowywany w chmurze
try
{
// Uzyskaj ClientID i ClientSecret z https://dashboard.aspose.cloud/
String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
// utwórz instancję PdfApi
PdfApi pdfApi = new PdfApi(clientSecret,clientId);
// wprowadź obraz dokumentu PDF
String name = "ScannedPDF.pdf";
// Załaduj plik z systemu lokalnego
File file = new File(name);
// prześlij plik do magazynu w chmurze
FilesUploadResult uploadResponse = pdfApi.uploadFile(name, file, null);
// języki używane w obrazie PDF
String lang = "eng";
// wykonaj OCR na obrazowym dokumencie PDF
AsposeResponse response = pdfApi.putSearchableDocument(name, null, null, lang);
// wydrukować komunikat o powodzeniu
System.out.println("OCR PDF successfull !");
}catch(Exception ex)
{
System.out.println(ex.getMessage());
}
Zeskanowany plik PDF użyty w powyższym przykładzie można pobrać z BusinessReport.pdf, a wynikowy plik PDF z możliwością wyszukiwania z Converted.pdf
OCR Online przy użyciu poleceń cURL
Polecenia cURL to jedno z wygodnych podejść do wywoływania interfejsów API REST. W tej sekcji użyjemy poleceń cURL do OCR online. Teraz, jako warunek wstępny, musimy najpierw wygenerować token dostępu JWT (na podstawie poświadczeń klienta) podczas wykonywania następującego polecenia.
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
Gdy mamy token JWT, wykonaj następujące polecenie, aby wykonać OCR online i przekonwertować obraz PDF na przeszukiwalny dokument PDF. Wynikowy plik jest następnie przechowywany w chmurze.
curl -v -X GET "https://api.aspose.cloud/v4.0/words/Resultant.docx?format=TIFF&outPath=converted.tiff" \
-H "accept: application/octet-stream" \
-H "Authorization: Bearer <JWT Token>"
Wniosek
Wykonywanie rozpoznawania OCR na plikach PDF jest procesem krytycznym dla uwolnienia pełnego potencjału tych dokumentów. Z pomocą opartych na chmurze narzędzi OCR, takich jak Aspose.PDF Cloud SDK for Java, proces ten można uprościć i zautomatyzować, oszczędzając czas i zwiększając produktywność. Wykorzystując możliwości OCR, firmy i programiści mogą przekształcać pliki PDF oparte na obrazach w pliki PDF z możliwością wyszukiwania, co ułatwia ich wyszukiwanie, edytowanie i udostępnianie. Oczywiste jest, że ten interfejs API oferuje szereg zaawansowanych funkcji i możliwości pracy z plikami PDF. Postępując zgodnie ze szczegółowymi przewodnikami przedstawionymi na tym blogu technicznym, możesz rozpocząć pracę z OCR w plikach PDF i przenieść obieg dokumentów na wyższy poziom.
Możesz rozważyć dostęp do interfejsu API w przeglądarce internetowej za pomocą interfejsu swagger. Ponadto, ponieważ nasze SDK są zbudowane na licencji MIT, pełny kod źródłowy można pobrać z GitHub. Jeśli napotkasz jakiekolwiek problemy podczas korzystania z interfejsu API, skontaktuj się z nami za pośrednictwem darmowego forum wsparcia produktu.
Powiązane artykuły
Zdecydowanie zalecamy odwiedzenie poniższych łączy, aby dowiedzieć się więcej o: