PDF இலிருந்து உரையைப் பிரித்தெடுக்கவும்

ஜாவாவில் உள்ள PDF இலிருந்து உரையைப் பிரித்தெடுக்கவும்

PDF கோப்புகள், மென்பொருள், வன்பொருள் அல்லது இயங்குதளம் சாராமல், ஆவணங்களை நம்பகத்தன்மையுடன் வழங்கவும், பரிமாறவும் பயன்படும் மிக முக்கியமான மற்றும் பரவலாகப் பயன்படுத்தப்படும் டிஜிட்டல் வடிவங்களில் ஒன்றாகும் என்பதை நாம் அனைவரும் அறிவோம். இருப்பினும், சில சூழ்நிலைகளில், பெரிய PDF கோப்புகளிலிருந்து ஒரு பகுதியைப் பெற நாங்கள் ஆர்வமாக இருக்கலாம். அல்லது, ஆன்லைனில் டெக்ஸ்ட் செய்ய PDF ஐ சேமிக்க வேண்டிய தேவை எங்களுக்கு இருக்கலாம். எனவே இந்த கட்டுரையில், ஜாவா ரெஸ்ட் ஏபிஐ பயன்படுத்தி PDF to Text Converter ஐ எவ்வாறு உருவாக்குவது என்பது பற்றிய விவரங்களை ஆராயப் போகிறோம்.

PDF ஜெனரேட்டர் API

டெம்ப்ளேட்களைப் பயன்படுத்தி அல்லது எங்கள் REST API ஐப் பயன்படுத்தி புதிதாக PDF ஆவணங்களை உருவாக்குவதற்கான அந்நியச் செலாவணியைப் பெறுங்கள். அதே நேரத்தில், API ஆனது PDF கோப்புகளை மற்ற [ஆதரவு வடிவங்களுக்கு6 மாற்றவும் திருத்தவும் உதவுகிறது. PDF இலிருந்து உரையைப் பிரித்தெடுத்தல், Java Cloud SDK ஐப் பயன்படுத்தி PDF கோப்புகளை மறைகுறியாக்கம் செய்தல் மற்றும் ஒன்றிணைத்தல் ஆகியவற்றின் நன்மைகளையும் நீங்கள் பெறலாம். இப்போது, ஜாவாவிற்கான [Aspose.PDF Cloud SDK] ஐப் பயன்படுத்துவதற்கு 17, பின்வரும் விவரங்களை pom.xml இல் (maven build type project) சேர்ப்பதன் மூலம் நமது ஜாவா பயன்பாட்டில் அதன் குறிப்பைச் சேர்க்க வேண்டும்.

<repositories> 
    <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>http://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-cloud-pdf</artifactId>
        <version>21.11.0</version>
        <scope>compile</scope>
    </dependency>
</dependencies>

நிறுவிய பின், நாம் [கிளவுட் டாஷ்போர்டில் 5 ஒரு இலவச கணக்கை உருவாக்க வேண்டும் மற்றும் தனிப்பயனாக்கப்பட்ட கிளையன்ட் நற்சான்றிதழ்களைப் பெற வேண்டும்.

ஜாவாவைப் பயன்படுத்தி PDF இலிருந்து உரையைப் பிரித்தெடுக்கவும்

ஜாவா கிளவுட் SDK ஐப் பயன்படுத்தி PDF இலிருந்து உரையைப் பிரித்தெடுப்பதற்கான விவரங்களை ஆராய்வோம். இந்த எடுத்துக்காட்டில், பின்வரும் உள்ளீட்டைப் பயன்படுத்தப் போகிறோம் PdfWithTable.pdf கோப்பு.

pdf to text ocr

படம் 1:- PDF லிருந்து உரை பிரித்தெடுப்புக்கான உள்ளீட்டு கோப்பு.

pdf to text ocr

படம் 2:- PDF முன்னோட்டத்திலிருந்து உரையைப் பிரித்தெடுக்கவும்

// மேலும் எடுத்துக்காட்டுகளுக்கு, https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-java/tree/master/Examples/src/main/java/com/aspose/asposecloudpdf/examples ஐப் பார்வையிடவும்

try
    {
    // ClientID மற்றும் ClientSecret ஐ https://dashboard.aspose.cloud/ இலிருந்து பெறவும்
    String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
    String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
		    
    // PdfApi இன் உதாரணத்தை உருவாக்கவும்
    PdfApi pdfApi = new PdfApi(clientSecret,clientId);
    // உள்ளீடு PDF ஆவணத்தின் பெயர்
    String name = "PdfWithTable.pdf";
		        
    // உள்ளீடு PDF கோப்பின் உள்ளடக்கத்தைப் படிக்கவும்
    File file = new File(name); 
    // கிளவுட் சேமிப்பகத்திற்கு PDF ஐ பதிவேற்றவும்
    pdfApi.uploadFile("input.pdf", file, null);
		        
    // கீழ் இடது மூலையின் X-ஆய
    Double LLX = 500.0;
    // Y - கீழ்-இடது மூலையின் ஒருங்கிணைப்பு.
    Double LLY = 500.0;
    // X - மேல் வலது மூலையின் ஒருங்கிணைப்பு.
    Double URX = 800.0;
    // Y - மேல் வலது மூலையின் ஒருங்கிணைப்பு.
    Double URY = 800.0;
			       
    // PDF ஐ உரையாக மாற்ற API ஐ அழைக்கவும்
    TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);    
		    
    // தனிப்பட்ட உரை நிகழ்வின் மூலம் பயணிக்கவும்
    for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
    {
        // கன்சோலில் உரை உள்ளடக்கத்தை எழுதவும்
        System.out.println(response.getTextOccurrences().getList().get(counter).getText());
    }
		  
    System.out.println("Extract Text from PDF successful !");
    }catch(Exception ex)
    {
        System.out.println(ex);
    }

இப்போது மேலே குறிப்பிட்ட குறியீடு துணுக்கைப் புரிந்துகொள்ள முயற்சிப்போம்:

PdfApi pdfApi = new PdfApi(clientSecret,clientId);

தனிப்பயனாக்கப்பட்ட நற்சான்றிதழ்களை வாதங்களாக அனுப்பும் போது PdfApi இன் நிகழ்வை உருவாக்கவும்.

File file = new File(name); 
pdfApi.uploadFile("input.pdf", file, null);

கோப்பு பொருளைப் பயன்படுத்தி உள்ளீட்டு PDF ஐப் படித்து, PdfAPi வகுப்பின் uploadFile(…) முறையைப் பயன்படுத்தி கிளவுட் சேமிப்பகத்தில் பதிவேற்றவும். uploadFile முறையில் பயன்படுத்தப்படும் பெயருடன் கோப்பு பதிவேற்றப்பட்டுள்ளது என்பதை நினைவில் கொள்ளவும்.

TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);    

இப்போது getText(..) முறையை அழைக்கவும், அதில் உள்ளீடு PDF கோப்பின் பெயரைக் குறிப்பிடவும், உரை உள்ளடக்கத்தைப் பிரித்தெடுக்க வேண்டிய பக்கத்தில் செவ்வக பரிமாணங்கள் மற்றும் பிரித்தெடுக்கப்பட்ட உள்ளடக்கத்தை TextRectsResponse பொருளுக்குத் திருப்பி அனுப்பவும்.

response.getTextOccurrences().getList().get(counter).getText()

இறுதியாக, பிரித்தெடுக்கப்பட்ட உரை உள்ளடக்கத்தை அச்சிட, அனைத்து TextOccurances மூலமாகவும் மீண்டும் மீண்டும் செய்து அவற்றை கன்சோலில் காண்பிக்கப் போகிறோம்.

CURL கட்டளைகளைப் பயன்படுத்தி உரைக்கு PDF

ஜாவா குறியீடு துணுக்கைத் தவிர, cURL கட்டளைகளைப் பயன்படுத்தி pdftotext செயல்பாட்டையும் செய்யலாம். இப்போது, பின்வரும் கட்டளையைப் பயன்படுத்தி JWT அணுகல் டோக்கனை (கிளையன்ட் நற்சான்றிதழ்களின் அடிப்படையில்) உருவாக்குவது இந்த அணுகுமுறைக்கான முன்நிபந்தனைகளில் ஒன்றாகும்.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

JWT உருவாக்கப்பட்டவுடன், கிளவுட் ஸ்டோரேஜில் ஏற்கனவே உள்ள PDF கோப்பிலிருந்து உரையைப் பிரித்தெடுக்க பின்வரும் கட்டளையை இயக்கவும்.

curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>"

விரைவான உதவிக்குறிப்பு

PDF to Text free App ஐத் தேடுகிறோம்! எங்கள் PDF பாகுபடுத்தி பயன்படுத்தி முயற்சிக்கவும்.

இறுதியான குறிப்புகள்

முடிவில், ஜாவாவைப் பயன்படுத்தி PDF கோப்புகளிலிருந்து உரையைப் பிரித்தெடுப்பது, அவர்களின் தரவு செயலாக்கம் மற்றும் பகுப்பாய்வு தேவைகளை தானியக்கமாக்க விரும்புவோருக்கு ஒரு சக்திவாய்ந்த தீர்வாக இருக்கும். இந்த வழிகாட்டியின் உதவியுடன், நீங்கள் இப்போது கட்டமைக்க ஒரு உறுதியான அடித்தளம் உள்ளது மற்றும் PDF ஆவணங்களிலிருந்து உரை பிரித்தெடுப்பதற்கான உங்கள் சொந்த ஜாவா அடிப்படையிலான தீர்வை எளிதாக செயல்படுத்தலாம். தரவு பகுப்பாய்வு, இயந்திர கற்றல் அல்லது வேறு எந்த நோக்கத்திற்காகவும் நீங்கள் உரையைப் பிரித்தெடுக்க விரும்பினாலும், ஜாவா உங்கள் தேவைகளுக்கு நெகிழ்வான மற்றும் நம்பகமான தளத்தை வழங்குகிறது. எனவே நீங்கள் புதிதாகப் பெற்ற திறன்களை சோதனைக்கு உட்படுத்துங்கள்!

API வழங்கும் பிற அற்புதமான அம்சங்களை ஆராய நீங்கள் ஆர்வமாக இருந்தால், தயாரிப்பு ஆவணத்தை ஆராயவும். கடைசியாக, API ஐப் பயன்படுத்தும் போது ஏதேனும் சிக்கலை எதிர்கொண்டாலோ அல்லது தொடர்புடைய வினவல் ஏதேனும் இருந்தால், தயவுசெய்து எங்களை இலவச [தயாரிப்பு ஆதரவு மன்றம்9 வழியாகத் தொடர்புகொள்ளவும்.

தொடர்புடைய கட்டுரைகள்

இதைப் பற்றி மேலும் அறிய பின்வரும் இணைப்புகளைப் பார்வையிடவும்: