PDF માંથી ટેક્સ્ટ કાઢો

જાવામાં PDF માંથી ટેક્સ્ટ કાઢો

આપણે બધા જાણીએ છીએ કે PDF ફાઇલો સોફ્ટવેર, હાર્ડવેર અથવા ઓપરેટિંગ સિસ્ટમથી સ્વતંત્ર રીતે દસ્તાવેજોને વિશ્વસનીય રીતે રજૂ કરવા અને વિનિમય કરવા માટે ઉપયોગમાં લેવાતા સૌથી મહત્વપૂર્ણ અને વ્યાપકપણે ઉપયોગમાં લેવાતા ડિજિટલ ફોર્મેટમાંની એક છે. જો કે, કેટલીક પરિસ્થિતિઓમાં, અમને મોટી પીડીએફ ફાઇલોમાંથી એક અવતરણ મેળવવામાં રસ હોઈ શકે છે. અથવા, અમારી પાસે PDF ને ટેક્સ્ટમાં ઓનલાઈન સાચવવાની જરૂરિયાત હોઈ શકે છે. તેથી આ લેખમાં, અમે Java REST API નો ઉપયોગ કરીને PDF થી ટેક્સ્ટ કન્વર્ટર કેવી રીતે વિકસિત કરવું તેની વિગતોનું અન્વેષણ કરવા જઈ રહ્યા છીએ.

પીડીએફ જનરેટર API

અમારા REST API નો ઉપયોગ કરીને ટેમ્પ્લેટ્સનો ઉપયોગ કરીને અથવા શરૂઆતથી પીડીએફ દસ્તાવેજો જનરેટ કરવાનો લાભ મેળવો. તે જ સમયે, API તમને સંપાદિત કરવા તેમજ PDF ફાઇલોને અન્ય [સપોર્ટેડ ફોર્મેટ6માં રૂપાંતરિત કરવા માટે પણ સક્ષમ કરે છે. તમે Java Cloud SDK નો ઉપયોગ કરીને PDF માંથી ટેક્સ્ટ કાઢવા, ડીક્રિપ્ટ કરવા અને PDF ફાઇલોને મર્જ કરવાના લાભો પણ લઈ શકો છો. હવે, [Aspose.PDF ક્લાઉડ SDK for Java17 નો ઉપયોગ કરવા માટે, અમારે pom.xml (maven બિલ્ડ ટાઇપ પ્રોજેક્ટ) માં નીચેની વિગતોનો સમાવેશ કરીને અમારી Java એપ્લિકેશનમાં તેનો સંદર્ભ ઉમેરવાની જરૂર છે.

<repositories> 
    <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>http://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-cloud-pdf</artifactId>
        <version>21.11.0</version>
        <scope>compile</scope>
    </dependency>
</dependencies>

ઇન્સ્ટોલેશન પછી, અમારે ક્લાઉડ ડેશબોર્ડ પર એક મફત એકાઉન્ટ બનાવવાની અને વ્યક્તિગત ક્લાયંટ ઓળખપત્ર મેળવવાની જરૂર છે.

Java નો ઉપયોગ કરીને PDF માંથી ટેક્સ્ટ કાઢો

ચાલો Java ક્લાઉડ SDK નો ઉપયોગ કરીને PDF માંથી ટેક્સ્ટ કાઢવા માટે વિગતોનું અન્વેષણ કરીએ. આ ઉદાહરણમાં, અમે નીચેના ઇનપુટનો ઉપયોગ કરવા જઈ રહ્યા છીએ PdfWithTable.pdf ફાઇલ

પીડીએફ થી ટેક્સ્ટ ઓસીઆર

ઈમેજ 1:- PDF થી લખાણ નિષ્કર્ષણ માટે ઇનપુટ ફાઇલ.

પીડીએફ થી ટેક્સ્ટ ઓસીઆર

ઈમેજ 2:- PDF પૂર્વાવલોકનમાંથી ટેક્સ્ટ કાઢો

// વધુ ઉદાહરણો માટે, કૃપા કરીને https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-java/tree/master/Examples/src/main/java/com/aspose/asposecloudpdf/examples ની મુલાકાત લો

try
    {
    // https://dashboard.aspose.cloud/ પરથી ClientID અને ClientSecret મેળવો
    String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
    String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
		    
    // PdfApi નો દાખલો બનાવો
    PdfApi pdfApi = new PdfApi(clientSecret,clientId);
    // ઇનપુટ પીડીએફ દસ્તાવેજનું નામ
    String name = "PdfWithTable.pdf";
		        
    // ઇનપુટ પીડીએફ ફાઇલની સામગ્રી વાંચો
    File file = new File(name); 
    // ક્લાઉડ સ્ટોરેજ પર પીડીએફ અપલોડ કરો
    pdfApi.uploadFile("input.pdf", file, null);
		        
    // નીચલા - ડાબા ખૂણાનું X-સંકલન
    Double LLX = 500.0;
    // Y - નીચલા-ડાબા ખૂણાનું સંકલન.
    Double LLY = 500.0;
    // X - ઉપલા-જમણા ખૂણાનું સંકલન.
    Double URX = 800.0;
    // Y - ઉપલા-જમણા ખૂણાનું સંકલન.
    Double URY = 800.0;
			       
    // પીડીએફને ટેક્સ્ટમાં કન્વર્ટ કરવા માટે API ને કૉલ કરો
    TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);    
		    
    // વ્યક્તિગત ટેક્સ્ટ ઘટના દ્વારા પસાર કરો
    for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
    {
        // કન્સોલમાં ટેક્સ્ટ સામગ્રી લખો
        System.out.println(response.getTextOccurrences().getList().get(counter).getText());
    }
		  
    System.out.println("Extract Text from PDF successful !");
    }catch(Exception ex)
    {
        System.out.println(ex);
    }

હવે ઉપરોક્ત ઉલ્લેખિત કોડ સ્નિપેટ સમજવાનો પ્રયત્ન કરીએ:

PdfApi pdfApi = new PdfApi(clientSecret,clientId);

વ્યક્તિગત ઓળખપત્રોને દલીલો તરીકે પસાર કરતી વખતે PdfApi નું ઉદાહરણ બનાવો.

File file = new File(name); 
pdfApi.uploadFile("input.pdf", file, null);

ફાઇલ ઑબ્જેક્ટનો ઉપયોગ કરીને ઇનપુટ PDF વાંચો અને PdfAPi ક્લાસની uploadFile(…) પદ્ધતિનો ઉપયોગ કરીને તેને ક્લાઉડ સ્ટોરેજ પર અપલોડ કરો. મહેરબાની કરીને નોંધ કરો કે ફાઇલ અપલોડફાઇલ પદ્ધતિમાં વપરાયેલ નામ સાથે અપલોડ કરવામાં આવી છે.

TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);    

હવે getText(..) પદ્ધતિને કૉલ કરો જ્યાં આપણે ઇનપુટ પીડીએફ ફાઇલનું નામ સ્પષ્ટ કરીએ છીએ, પૃષ્ઠ પરના લંબચોરસ પરિમાણો કે જેમાંથી આપણે ટેક્સ્ટની સામગ્રીને એક્સ્ટ્રેક્ટ કરવાની જરૂર છે અને, એક્સટ્રેક્ટ કરેલી સામગ્રીને TextRectsResponse ઑબ્જેક્ટ પર પરત કરવાની જરૂર છે.

response.getTextOccurrences().getList().get(counter).getText()

છેલ્લે, એક્સટ્રેક્ટ કરેલ ટેક્સ્ટ કન્ટેન્ટને પ્રિન્ટ કરવા માટે, અમે તમામ ટેક્સ્ટ ઓક્યુરેન્સ દ્વારા પુનરાવર્તન કરવા જઈ રહ્યા છીએ અને તેમને કન્સોલમાં પ્રદર્શિત કરીશું.

સીઆરએલ આદેશોનો ઉપયોગ કરીને PDF થી ટેક્સ્ટ

જાવા કોડ સ્નિપેટ સિવાય, અમે cURL આદેશોનો ઉપયોગ કરીને pdftotext ઑપરેશન પણ કરી શકીએ છીએ. હવે, આ અભિગમ માટેની પૂર્વશરતમાંની એક નીચે આપેલા આદેશનો ઉપયોગ કરીને JWT એક્સેસ ટોકન (ક્લાયન્ટ ઓળખપત્ર પર આધારિત) જનરેટ કરવાની છે.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

એકવાર JWT જનરેટ થઈ જાય, કૃપા કરીને ક્લાઉડ સ્ટોરેજમાં પહેલેથી જ ઉપલબ્ધ PDF ફાઇલમાંથી ટેક્સ્ટ કાઢવા માટે નીચેનો આદેશ ચલાવો.

curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>"

ઝડપી ટીપ

પીડીએફ ટુ ટેક્સ્ટ ફ્રી એપ્લિકેશન શોધી રહ્યાં છીએ! કૃપા કરીને અમારા PDF પાર્સર નો ઉપયોગ કરવાનો પ્રયાસ કરો.

સમાપન નોંધ, ઉપસંહાર

નિષ્કર્ષમાં, જાવાનો ઉપયોગ કરીને PDF ફાઇલોમાંથી ટેક્સ્ટ કાઢવા એ તેમની ડેટા પ્રોસેસિંગ અને વિશ્લેષણની જરૂરિયાતોને સ્વચાલિત કરવા માંગતા લોકો માટે એક શક્તિશાળી ઉકેલ હોઈ શકે છે. આ માર્ગદર્શિકાની મદદથી, તમારી પાસે હવે મજબૂત પાયો છે અને તમે PDF દસ્તાવેજોમાંથી ટેક્સ્ટ એક્સ્ટ્રક્શન માટે તમારા પોતાના જાવા-આધારિત ઉકેલને સરળતાથી અમલમાં મૂકી શકો છો. ભલે તમે ડેટા વિશ્લેષણ, મશીન લર્નિંગ અથવા અન્ય કોઈ હેતુ માટે ટેક્સ્ટ કાઢવાનું વિચારી રહ્યાં હોવ, Java તમારી જરૂરિયાતો માટે એક લવચીક અને વિશ્વસનીય પ્લેટફોર્મ પૂરું પાડે છે. તેથી આગળ વધો અને તમારી નવી હસ્તગત કૌશલ્યોને પરીક્ષણમાં મૂકો!

જો તમને API દ્વારા ઓફર કરવામાં આવતી અન્ય આકર્ષક સુવિધાઓનું અન્વેષણ કરવામાં રસ હોય, તો કૃપા કરીને [ઉત્પાદન દસ્તાવેજીકરણ] નું અન્વેષણ કરો 11. છેલ્લે, જો તમને API નો ઉપયોગ કરતી વખતે કોઈ સમસ્યા આવે, અથવા તમારી પાસે કોઈ સંબંધિત ક્વેરી હોય, તો કૃપા કરીને મફત પ્રોડક્ટ સપોર્ટ ફોરમ દ્વારા અમારો સંપર્ક કરવા માટે નિઃસંકોચ કરો.

સંબંધિત લેખો

આ વિશે વધુ જાણવા માટે કૃપા કરીને નીચેની લિંક્સની મુલાકાત લો: