இன்றைய தரவு உந்துதல் உலகில், ஆவணங்களை சேமிப்பதற்கும் பகிர்வதற்கும் PDFs இன்றியமையாத வடிவமாகிவிட்டது. இருப்பினும், அனைத்து PDFகளும் எளிதில் தேடக்கூடியவை அல்லது திருத்தக்கூடியவை அல்ல, குறிப்பாக பட அடிப்படையிலானவை. ஆவணங்களைக் கையாளும் போது, மேலும் கையாளுதலுக்காக எந்தவொரு உரைத் தகவலையும் நகலெடுப்பது/பிரித்தெடுப்பது மிகவும் கடினம். அதிர்ஷ்டவசமாக, Optical Character Recognition (OCR) தொழில்நுட்பத்தின் சக்தியுடன், நீங்கள் பட PDFகளை எளிதாக தேடக்கூடிய PDFகளாக மாற்றலாம். இந்த தொழில்நுட்ப வலைப்பதிவில், REST API இல் குறிப்பிட்ட கவனம் செலுத்தி, பல்வேறு நுட்பங்களைப் பயன்படுத்தி OCR PDF ஐ தேடக்கூடிய PDF ஆக மாற்றுவது எப்படி என்பதை ஆராய்வோம். OCR PDF களில் இருந்து உரையை எவ்வாறு பிரித்தெடுப்பது என்பதையும் நாங்கள் விவாதிப்போம், உங்கள் PDF ஆவணங்களின் முழு திறனையும் திறக்க OCR தொழில்நுட்பத்தை எவ்வாறு பயன்படுத்துவது என்பது பற்றிய விரிவான புரிதலை உங்களுக்கு வழங்குகிறது.
- ஜாவா SDK ஐப் பயன்படுத்தி OCR PDF
- ஜாவாவைப் பயன்படுத்தி PDF முதல் தேடக்கூடிய PDF வரை ஸ்கேன் செய்யப்பட்டது
- CURL கட்டளைகளைப் பயன்படுத்தி OCR ஆன்லைன்
ஜாவா SDK ஐப் பயன்படுத்தி OCR PDF
Aspose.PDF Cloud SDK for Java என்பது ஒரு சக்திவாய்ந்த கிளவுட்-அடிப்படையிலான API ஆகும், இது PDF ஆவணங்களுடன் வேலை செய்வதற்கான பரந்த அளவிலான அம்சங்களையும் திறன்களையும் வழங்குகிறது. அதன் முக்கிய செயல்பாடுகளில் ஒன்று PDF களில் OCR ஐச் செய்யும் திறன் ஆகும், இது பட அடிப்படையிலான PDF களில் இருந்து உரையைப் பிரித்தெடுக்கும் மற்றும் தேடக்கூடிய PDFகளை உருவாக்கும் செயல்முறையை பெரிதும் எளிதாக்கும். அதன் பயனர் நட்பு இடைமுகம் மற்றும் விரிவான ஆவணங்கள் மூலம், இந்த SDK ஆனது PDFகளில் OCR செய்யும் செயல்முறையை தானியங்குபடுத்துவதை எளிதாக்குகிறது, நேரத்தை மிச்சப்படுத்துகிறது மற்றும் உற்பத்தித்திறனை அதிகரிக்கிறது.
மேலும், இந்த கிளவுட்-அடிப்படையிலான ஏபிஐ பல்வேறு வகையான உள்ளீட்டு வடிவங்களைக் கையாள வடிவமைக்கப்பட்டுள்ளது மற்றும் கையால் எழுதப்பட்ட உரையை கூட அடையாளம் காண முடியும், இது வணிகங்கள் மற்றும் டெவலப்பர்கள் தங்கள் ஆவண பணிப்பாய்வுகளை நெறிப்படுத்த விரும்பும் சிறந்த தேர்வாக அமைகிறது. இப்போது முதல் படி, மேவன் பில்ட் திட்டத்தின் pom.xml இல் பின்வரும் விவரங்களைச் சேர்ப்பதன் மூலம் ஜாவா திட்டத்தில் அதன் குறிப்பைச் சேர்ப்பதாகும்.
<repositories>
<repository>
<id>aspose-cloud</id>
<name>artifact.aspose-cloud-releases</name>
<url>https://artifact.aspose.cloud/repo</url>
</repository>
</repositories>
<dependencies>
<dependency>
<groupId>com.aspose</groupId>
<artifactId>aspose-pdf-cloud</artifactId>
<version>21.11.0</version>
</dependency>
</dependencies>
உங்களிடம் ஏற்கனவே கணக்கு இல்லையென்றால், Aspose Cloud மூலம் நீங்கள் ஒரு இலவச கணக்கை உருவாக்க வேண்டும். புதிதாக உருவாக்கப்பட்ட கணக்கைப் பயன்படுத்தி உள்நுழைந்து, [கிளவுட் டாஷ்போர்டில் 5 கிளையண்ட் ஐடி மற்றும் கிளையண்ட் ரகசியத்தைப் பார்க்கவும்/உருவாக்கவும். இந்த விவரங்கள் அடுத்தடுத்த பிரிவுகளில் தேவை.
ஜாவாவைப் பயன்படுத்தி PDF முதல் தேடக்கூடிய PDF வரை ஸ்கேன் செய்யப்பட்டது
ஜாவா குறியீடு துணுக்கைப் பயன்படுத்தி ஸ்கேன் செய்யப்பட்ட PDF-ஐ தேடக்கூடிய PDF ஆக மாற்றுவது எப்படி என்பது பற்றிய விவரங்களை இந்தப் பகுதி விளக்குகிறது. Java Cloud SDK பின்வரும் மொழிகளின் அங்கீகாரத்தை ஆதரிக்கிறது: eng, ara, bel, ben, bul, ces, dan, deu, ell, fin, fra, heb, hin, ind, isl, ita, jpn, kor, nld , இல்லை, போல், போர், ரான், ரஸ், ஸ்பா, ஸ்வே, தா, டர், உக்ர், வியே, சிசிம், சித்ரா அல்லது அவற்றின் சேர்க்கை எ.கா. எங், ரஸ்.
- முதலில் நாம் PdfApi இன் பொருளை உருவாக்க வேண்டும், அங்கு ClientID மற்றும் கிளையண்ட் ரகசிய விவரங்களை வாதங்களாக அனுப்புகிறோம்.
- இரண்டாவதாக, பட PDF ஐ ஏற்ற கோப்பு வகுப்பின் நிகழ்வை உருவாக்கவும்
- மூன்றாவதாக, கிளவுட் சேமிப்பகத்தில் உள்ளீடு PDF ஐ பதிவேற்ற uploadFile(…) முறையை அழைக்கவும்
- எங்கள் படத்தின் PDF ஆங்கில உரையைக் கொண்டிருப்பதால், “eng” மதிப்பைக் கொண்ட ஒரு சரம் பொருளை உருவாக்க வேண்டும்.
- இறுதியாக, putSearchableDocument(…) முறையை அழைக்கவும், இதற்கு PDF உள்ளீடு மற்றும் மொழிக் குறியீடு வாதங்களாக தேவைப்படுகிறது.
குறியீடு வெற்றிகரமாகச் செயல்படுத்தப்பட்டதும், தேடக்கூடிய PDF ஆனது கிளவுட் சேமிப்பகத்தில் சேமிக்கப்படும்
try
{
// ClientID மற்றும் ClientSecret ஐ https://dashboard.aspose.cloud/ இலிருந்து பெறவும்
String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
// createPdfApi உதாரணம்
PdfApi pdfApi = new PdfApi(clientSecret,clientId);
// உள்ளீடு பட PDF ஆவணம்
String name = "ScannedPDF.pdf";
// உள்ளூர் அமைப்பிலிருந்து கோப்பை ஏற்றவும்
File file = new File(name);
// கோப்பை மேகக்கணி சேமிப்பகத்தில் பதிவேற்றவும்
FilesUploadResult uploadResponse = pdfApi.uploadFile(name, file, null);
// பட PDF இல் பயன்படுத்தப்படும் மொழிகள்
String lang = "eng";
// பட PDF ஆவணத்தில் OCR ஐச் செய்யவும்
AsposeResponse response = pdfApi.putSearchableDocument(name, null, null, lang);
// வெற்றி செய்தியை அச்சு
System.out.println("OCR PDF successfull !");
}catch(Exception ex)
{
System.out.println(ex.getMessage());
}
மேலே உள்ள எடுத்துக்காட்டில் பயன்படுத்தப்பட்ட ஸ்கேன் செய்யப்பட்ட PDF ஐ BusinessReport.pdf இலிருந்து பதிவிறக்கம் செய்யலாம் மற்றும் அதன் விளைவாக தேடக்கூடிய PDF Converted.pdf
CURL கட்டளைகளைப் பயன்படுத்தி OCR ஆன்லைன்
CURL கட்டளைகள் REST APIகளை அழைப்பதற்கான வசதியான அணுகுமுறைகளில் ஒன்றாகும். எனவே இந்தப் பிரிவில், ஆன்லைனில் OCRக்கான cURL கட்டளைகளைப் பயன்படுத்தப் போகிறோம். இப்போது, ஒரு முன்நிபந்தனையாக, பின்வரும் கட்டளையை இயக்கும் போது முதலில் JWT அணுகல் டோக்கனை (கிளையன்ட் சான்றுகளின் அடிப்படையில்) உருவாக்க வேண்டும்.
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
எங்களிடம் JWT டோக்கன் கிடைத்ததும், OCR ஆன்லைனில் செய்ய பின்வரும் கட்டளையை தயவுசெய்து தேடக்கூடிய PDF ஆவணமாக மாற்றவும். இதன் விளைவாக வரும் கோப்பு கிளவுட் சேமிப்பகத்தில் சேமிக்கப்படும்.
curl -v -X GET "https://api.aspose.cloud/v4.0/words/Resultant.docx?format=TIFF&outPath=converted.tiff" \
-H "accept: application/octet-stream" \
-H "Authorization: Bearer <JWT Token>"
முடிவுரை
இந்த ஆவணங்களின் முழுத் திறனையும் திறப்பதற்கு PDFகளில் OCR செய்வது ஒரு முக்கியமான செயல்முறையாகும். ஜாவாவிற்கான Aspose.PDF Cloud SDK போன்ற கிளவுட்-அடிப்படையிலான OCR கருவிகளின் உதவியுடன், இந்த செயல்முறையை எளிதாக்கலாம் மற்றும் தானியங்குபடுத்தலாம், நேரத்தை மிச்சப்படுத்தலாம் மற்றும் உற்பத்தித்திறனை அதிகரிக்கலாம். OCR இன் சக்தியைப் பயன்படுத்துவதன் மூலம், வணிகங்கள் மற்றும் டெவலப்பர்கள் பட அடிப்படையிலான PDFகளை தேடக்கூடிய PDFகளாக மாற்றலாம், அவற்றைத் தேட, திருத்த மற்றும் பகிர்வதை எளிதாக்குகிறது. இந்த API ஆனது PDFகளுடன் பணிபுரிவதற்கான பல சக்திவாய்ந்த அம்சங்கள் மற்றும் திறன்களை வழங்குகிறது என்பது தெளிவாகிறது. இந்த தொழில்நுட்ப வலைப்பதிவில் வழங்கப்பட்ட படிப்படியான வழிகாட்டிகளைப் பின்பற்றுவதன் மூலம், PDFகளில் OCR ஐப் பயன்படுத்தி, உங்கள் ஆவணப் பணிப்பாய்வுகளை அடுத்த கட்டத்திற்கு எடுத்துச் செல்லலாம்.
swagger interface ஐப் பயன்படுத்தி இணைய உலாவியில் API ஐ அணுகுவதை நீங்கள் பரிசீலிக்கலாம். மேலும், எங்கள் SDKகள் MIT உரிமத்தின் கீழ் கட்டமைக்கப்பட்டுள்ளதால், முழுமையான மூலக் குறியீட்டை GitHub இலிருந்து பதிவிறக்கம் செய்யலாம். API ஐப் பயன்படுத்தும் போது ஏதேனும் சிக்கல்கள் ஏற்பட்டால், இலவச தயாரிப்பு ஆதரவு மன்றம் வழியாக எங்களைத் தொடர்புகொள்ளவும்.
தொடர்புடைய கட்டுரைகள்
இதைப் பற்றி மேலும் அறிய பின்வரும் இணைப்புகளைப் பார்வையிடுமாறு நாங்கள் மிகவும் பரிந்துரைக்கிறோம்: