nxjerr tekstin nga PDF

Ekstraktoni tekstin nga PDF në Java

Ne të gjithë e dimë se skedarët PDF janë një nga formatet dixhitale më të rëndësishme dhe të përdorura gjerësisht që përdoret për të paraqitur dhe shkëmbyer dokumente në mënyrë të besueshme, pavarësisht nga softueri, hardueri ose sistemi operativ. Sidoqoftë, në disa skenarë, mund të jemi të interesuar të marrim një fragment nga skedarët e mëdhenj PDF. Ose, mund të kemi një kërkesë për të ruajtur PDF-në në tekst në internet. Pra, në këtë artikull, ne do të shqyrtojmë detajet se si të zhvillojmë konvertuesin PDF në tekst duke përdorur Java REST API.

API-ja e gjeneratorit PDF

Merrni fuqinë për të gjeneruar dokumente PDF duke përdorur shabllone ose nga e para duke përdorur API-në tonë REST. Në të njëjtën kohë, API ju mundëson gjithashtu të redaktoni, si dhe të transformoni skedarët PDF në formate të tjera të mbështetura. Ju gjithashtu mund të përfitoni nga nxjerrja e tekstit nga PDF, deshifrimi dhe bashkimi i skedarëve PDF duke përdorur Java Cloud SDK. Tani, në mënyrë që të përdorim Aspose.PDF Cloud SDK për Java, duhet të shtojmë referencën e tij në aplikacionin tonë Java duke përfshirë detajet e mëposhtme në pom.xml (projekt i llojit të ndërtimit të maven).

<repositories> 
    <repository>
        <id>aspose-cloud</id>
        <name>artifact.aspose-cloud-releases</name>
        <url>http://artifact.aspose.cloud/repo</url>
    </repository>   
</repositories>

<dependencies>
    <dependency>
        <groupId>com.aspose</groupId>
        <artifactId>aspose-cloud-pdf</artifactId>
        <version>21.11.0</version>
        <scope>compile</scope>
    </dependency>
</dependencies>

Pas instalimit, ne duhet të krijojmë një llogari falas mbi Pulti i Cloud dhe të marrim kredencialet e personalizuara të klientit.

Ekstraktoni tekstin nga PDF duke përdorur Java

Le të eksplorojmë detajet për të nxjerrë tekstin nga PDF duke përdorur Java cloud SDK. Në këtë shembull, ne do të përdorim hyrjen e mëposhtme PdfWithTable.pdf dosje.

pdf në tekst okr

Imazhi 1:- Fut skedarin për nxjerrjen e PDF në tekst.

pdf në tekst okr

Imazhi 2: - Ekstraktoni tekstin nga pamja paraprake PDF

// për më shumë shembuj, ju lutemi vizitoni https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-java/tree/master/Examples/src/main/java/com/aspose/asposecloudpdf/examples

try
    {
    // Merrni ClientID dhe ClientSecret nga https://dashboard.aspose.cloud/
    String clientId = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";
    String clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
		    
    // krijoni një shembull të PdfApi
    PdfApi pdfApi = new PdfApi(clientSecret,clientId);
    // emri i dokumentit të hyrjes PDF
    String name = "PdfWithTable.pdf";
		        
    // lexoni përmbajtjen e skedarit PDF hyrës
    File file = new File(name); 
    // ngarkoni PDF në ruajtjen e cloud
    pdfApi.uploadFile("input.pdf", file, null);
		        
    // Koordinata X e këndit të poshtëm - të majtë
    Double LLX = 500.0;
    // Y - koordinata e këndit të poshtëm të majtë.
    Double LLY = 500.0;
    // X - koordinata e këndit të sipërm të djathtë.
    Double URX = 800.0;
    // Y - koordinata e këndit të sipërm të djathtë.
    Double URY = 800.0;
			       
    // telefononi API-në për të kthyer PDF në tekst
    TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);    
		    
    // Kaloni përmes Ndodhjes individuale të Tekstit
    for(int counter=0; counter <=response.getTextOccurrences().getList().size()-1; counter++)
    {
        // shkruani përmbajtje teksti në tastierë
        System.out.println(response.getTextOccurrences().getList().get(counter).getText());
    }
		  
    System.out.println("Extract Text from PDF successful !");
    }catch(Exception ex)
    {
        System.out.println(ex);
    }

Tani le të përpiqemi të kuptojmë fragmentin e kodit të specifikuar më lart:

PdfApi pdfApi = new PdfApi(clientSecret,clientId);

Krijoni një shembull të PdfApi ndërsa kaloni kredencialet e personalizuara si argumente.

File file = new File(name); 
pdfApi.uploadFile("input.pdf", file, null);

Lexoni PDF-në hyrëse duke përdorur objektin File dhe ngarkoni atë në ruajtjen e resë kompjuterike duke përdorur metodën uploadFile(…) të klasës PdfAPi. Ju lutemi vini re se skedari është ngarkuar me emrin e përdorur në metodën uploadFile.

TextRectsResponse response = pdfApi.getText("input.pdf", LLX, LLY, URX, URY, null, null, null, null, null);    

Tani thirrni metodën getText(..) ku specifikojmë emrin e skedarit PDF hyrës, dimensionet drejtkëndore në faqe nga e cila duhet të nxjerrim përmbajtjen tekstuale dhe, ta kthejmë përmbajtjen e nxjerrë në objektin TextRectsResponse.

response.getTextOccurrences().getList().get(counter).getText()

Së fundi, për të printuar përmbajtjen e tekstit të nxjerrë, ne do t’i përsërisim të gjitha TextOccurances dhe do t’i shfaqim ato në tastierë.

PDF në tekst duke përdorur komandat cURL

Përveç fragmentit të kodit Java, ne gjithashtu mund të kryejmë operacionin pdftotext duke përdorur komandat cURL. Tani, një nga parakushtet për këtë qasje është gjenerimi i një token aksesi JWT (bazuar në kredencialet e klientit) duke përdorur komandën e mëposhtme.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Pasi të krijohet JWT, ju lutemi ekzekutoni komandën e mëposhtme për të nxjerrë tekstin nga skedari PDF tashmë i disponueshëm në ruajtjen e cloud.

curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/input.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>"

Këshillë e shpejtë

Në kërkim të aplikacionit pa pagesë PDF në tekst! Ju lutemi, provoni të përdorni [PDF Parser] (https://products.aspose.app/pdf/parser).

Vërejtjet përfundimtare

Si përfundim, nxjerrja e tekstit nga skedarët PDF duke përdorur Java mund të jetë një zgjidhje e fuqishme për ata që kërkojnë të automatizojnë nevojat e tyre të përpunimit dhe analizës së të dhënave. Me ndihmën e këtij udhëzuesi, ju tani keni një themel të fortë për të ndërtuar dhe mund të zbatoni lehtësisht zgjidhjen tuaj të bazuar në Java për nxjerrjen e tekstit nga dokumentet PDF. Pavarësisht nëse po kërkoni të nxirrni tekst për analizën e të dhënave, mësimin e makinerive ose ndonjë qëllim tjetër, Java ofron një platformë fleksibël dhe të besueshme për nevojat tuaja. Pra, vazhdo dhe vëri në provë aftësitë e tua të fituara rishtazi!

Nëse jeni të interesuar të eksploroni veçori të tjera emocionuese që ofrohen nga API, ju lutemi eksploroni Product Documentation. Së fundmi, nëse hasni ndonjë problem gjatë përdorimit të API-së, ose keni ndonjë pyetje të lidhur, ju lutemi mos ngurroni të na kontaktoni përmes [Forumit të Mbështetjes së Produkteve] falas.

Artikuj të ngjashëm

Ju lutemi vizitoni lidhjet e mëposhtme për të mësuar më shumë rreth: