poimia pdf-tekstiä

Pura teksti PDF-tiedostosta .NET REST API:n avulla.

PDF-asiakirjoista on tullut standardi tietojen jakamiseen ja vaihtamiseen eri alustoilla ja laitteilla. Vaikka PDF-tiedostot tarjoavat turvallisen ja yhtenäisen muodon, olennaisten tietojen poimiminen näistä asiakirjoista voi olla pelottava tehtävä, varsinkin kun käsitellään suuria tietomääriä. Riippumatta siitä, haluatko poimia tekstiä analysointia, tietojen syöttämistä tai sisällön käsittelyä varten, luotettava ja tehokas tekstinpoimintaratkaisu on ratkaisevan tärkeä. Tässä artikkelissa perehdymme PDF-tiedostojen tekstin purkamisen maailmaan käyttämällä .NET REST API:ta, jonka tehonlähteenä on vahva Aspose.PDF Cloud SDK.

REST API PDF-käsittelyyn

Aspose.PDF Cloud SDK for .NET on vankka ja käyttäjäystävällinen sovellusliittymä, joka yksinkertaistaa tekstin purkamista PDF-tiedostoista. Yksi Aspose.PDF Cloud SDK for .NET:n erottuvista ominaisuuksista on sen kyky käsitellä monimutkaisia PDF-rakenteita ja poimia tarkasti tekstiä asiakirjoista, joissa on erilaisia asetteluja. Riippumatta siitä, sisältääkö PDF tekstiä, kuvia, taulukoita tai muita monimutkaisia elementtejä, API voi älykkäästi navigoida asiakirjan läpi ja hakea tekstisisällön tarkasti. Siksi tehokkaat ominaisuudet, tarkkuus ja integroinnin helppous tekevät siitä ihanteellisen valinnan arvokasta tekstidataa poimia PDF-dokumenteista .NET-sovelluksissa.

Nyt tämän ominaisuuden aloittamiseksi ensimmäinen askel on lisätä Cloud SDK:n viite .NET-ratkaisuamme. Joten etsi “Aspose.PDF-Cloud” NuGet-pakettien hallinnassa ja napsauta “Lisää paketti” -painiketta. Toiseksi käy pilvihallintapaneelissa ja hanki henkilökohtaiset asiakastietosi.

Pura PDF-teksti käyttämällä C#.NETiä

Tässä osiossa aiomme tutkia yksityiskohtia poimiaksemme tekstiä PDF-tiedostosta ohjelmallisesti.

// Täydelliset esimerkit ja datatiedostot ovat osoitteessa 
https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-dotnet

// Hanki asiakkaan tunnistetiedot osoitteesta https://dashboard.aspose.cloud/
string clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
string clientID = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";

// luo PdfApi-esiintymä
PdfApi pdfApi = new PdfApi(clientSecret, clientID);

// Syötä PDF-tiedoston nimi
String inputFile = "Binder1-1.pdf";
// Lue PDF-tiedoston sisältö stream-instanssiin
var sourceFile = System.IO.File.OpenRead(inputFile);

// Lataa PDF-tiedosto pilvitallennustilaan
pdfApi.UploadFile("inputPDF.pdf", sourceFile);

// Vasemman alakulman X-koordinaatti
Double LLX = 500.0;
// Y - vasemman alakulman koordinaatti.
Double LLY = 500.0;
// X - oikean yläkulman koordinaatti.
Double URX = 800.0;
// Y - oikean yläkulman koordinaatti.
Double URY = 800.0;

// Soita API:lle poimiaksesi tekstiä tietyistä PDF-dokumentin koordinaateista
TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);

// Selaa yksittäisen tekstin esiintymisen läpi
for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
    // kirjoittaa tekstisisältöä konsoliin
    Console.WriteLine(response.TextOccurrences.List[counter].Text);
}
Pura pdf-teksti

PDF-dokumentista poimitun tekstin esikatselu.

Alla on tiedot yllä mainitusta koodinpätkästä.

PdfApi pdfApi = new PdfApi(clientSecret, clientID);

Luo ensin PdfApi-luokan esiintymä, jossa välitämme asiakkaan tunnistetiedot argumentteina.

String inputFile = "Binder1-1.pdf";
var sourceFile = System.IO.File.OpenRead(inputFile);

Lataa syötetyn PDF-tiedoston sisältö suoratoistoon.

pdfApi.UploadFile("inputPDF.pdf", sourceFile);

Lataa PDF-dokumentti pilvitallennustilaan.

TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);

Soita API:lle poimiaksesi tekstiä PDF-tiedostosta tietyillä sivukoordinaateilla.

for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
    // write text content in console
    Console.WriteLine(response.TextOccurrences.List[counter].Text);
}

Iteroi luetteloa, joka sisältää poimittuja tekstiesiintymiä, ja tulosta tekstin esiintymät konsolissa.

Jäsennä teksti PDF-tiedostosta cURL-komennoilla

Käyttämällä cURL-komentoja yhdessä Aspose.PDF Cloud API:n kanssa voit poimia vaivattomasti tekstisisältöä pilvitallennustilassa olevista PDF-tiedostoista. API tukee useita parametreja poimintaprosessin mukauttamiseen, jolloin voit määrittää koordinaatit ja muita vaihtoehtoja poimia tekstiä tarkasti.

Ensimmäinen askel tällä lähestymistavalla on luoda JWT-käyttöoikeus, kun suoritetaan seuraava komento.

curl -v "https://api.aspose.cloud/connect/token" \
 -X POST \
 -d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
 -H "Content-Type: application/x-www-form-urlencoded" \
 -H "Accept: application/json"

Kun JWT-tunnus on luotu, suorita seuraava komento vetääksesi tekstin PDF-dokumentista.

curl -v "https://api.aspose.cloud/v3.0/pdf/{inputPDF}/text?splitRects=true&LLX=10&LLY=10&URX=800&URY=800" \
-X GET \
-H  "accept: application/json" \
-H  "authorization: Bearer {accessToken}" \
-o "extractedContent.txt"

Korvaa “inputPDF” sen PDF-dokumentin nimellä, joka on jo saatavilla pilvitallennustilassa, ja “accessToken” yllä luodulla JWT-tunnuksella.

Johtopäätös

Yhteenvetona voidaan todeta, että sekä Aspose.PDF Cloud SDK for .NET että cURL-komentolähestymistapa tarjoavat tehokkaita ja luotettavia ratkaisuja tekstin poimimiseen PDF-dokumenteista. Aspose.PDF Cloud SDK for .NET tarjoaa kattavan ja kehittäjäystävällisen sovellusliittymän, jossa on laaja valikoima ominaisuuksia, mikä tekee siitä tehokkaan vaihtoehdon PDF-tekstin purkamisen integroimiseen .NET-sovelluksiin. Toisaalta cURL-komentolähestymistapa tarjoaa joustavan ja alustasta riippumattoman menetelmän vuorovaikutukseen Aspose.PDF Cloud API:n kanssa, mikä tekee siitä erinomaisen vaihtoehdon eri ympäristöissä ja ohjelmointikielillä työskenteleville kehittäjille.

hyödyllisiä linkkejä

Aiheeseen liittyvät artikkelit

Suosittelemme vierailemaan seuraavissa blogeissa: