izvilkt pdf tekstu

Izņemiet tekstu no PDF, izmantojot .NET REST API.

PDF dokumenti ir kļuvuši par standartu informācijas kopīgošanai un apmaiņai dažādās platformās un ierīcēs. Lai gan PDF faili piedāvā drošu un konsekventu formātu, būtisku datu iegūšana no šiem dokumentiem var būt biedējošs uzdevums, īpaši, ja tiek apstrādāts liels informācijas apjoms. Neatkarīgi no tā, vai jums ir nepieciešams izvilkt tekstu analīzei, datu ievadīšanai vai satura manipulācijām, ļoti svarīgs ir uzticams un efektīvs teksta ieguves risinājums. Šajā rakstā mēs iedziļināsimies teksta izvilkšanas pasaulē no PDF failiem, izmantojot .NET REST API, ko nodrošina spēcīgais Aspose.PDF Cloud SDK.

REST API PDF apstrādei

Aspose.PDF Cloud SDK for .NET ir spēcīga un lietotājam draudzīga API, kas vienkāršo teksta izvilkšanu no PDF failiem. Viena no Aspose.PDF Cloud SDK for .NET izcilajām funkcijām ir tā spēja apstrādāt sarežģītas PDF struktūras un precīzi izvilkt tekstu no dokumentiem ar dažādu izkārtojumu. Neatkarīgi no tā, vai PDF failā ir teksts, attēli, tabulas vai citi sarežģīti elementi, API var gudri pārvietoties pa dokumentu un precīzi izgūt teksta saturu. Tāpēc jaudīgās funkcijas, precizitāte un integrēšanas vienkāršība padara to par ideālu izvēli vērtīgu teksta datu iegūšanai no PDF dokumentiem savās .NET lietojumprogrammās.

Tagad, lai sāktu ar šo funkciju, pirmais solis ir pievienot atsauci uz Cloud SDK mūsu .NET risinājumā. Tātad, NuGet pakotņu pārvaldniekā meklējiet “Aspose.PDF-Cloud” un noklikšķiniet uz pogas “Pievienot pakotni”. Otrkārt, apmeklējiet mākoņa informācijas paneli un iegūstiet savus personalizētos klienta akreditācijas datus.

Izņemiet PDF tekstu, izmantojot C#.NET

Šajā sadaļā mēs izpētīsim detalizētu informāciju, lai programmatiski izvilktu tekstu no PDF.

// Lai iegūtu pilnus piemērus un datu failus, lūdzu, dodieties uz 
https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-dotnet

// Iegūstiet klienta akreditācijas datus vietnē https://dashboard.aspose.cloud/
string clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
string clientID = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";

// izveidot PdfApi gadījumu
PdfApi pdfApi = new PdfApi(clientSecret, clientID);

// Ievadiet PDF faila nosaukumu
String inputFile = "Binder1-1.pdf";
// Lasiet PDF faila saturu straumes instancē
var sourceFile = System.IO.File.OpenRead(inputFile);

// Augšupielādējiet PDF failu mākoņa krātuvē
pdfApi.UploadFile("inputPDF.pdf", sourceFile);

// Apakšējā kreisā stūra X-koordināta
Double LLX = 500.0;
// Y - apakšējā kreisā stūra koordināte.
Double LLY = 500.0;
// X - augšējā labā stūra koordināte.
Double URX = 800.0;
// Y - augšējā labā stūra koordināte.
Double URY = 800.0;

// Izsauciet API, lai izvilktu tekstu no noteiktām koordinātām PDF dokumentā
TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);

// Pārvietojieties pa atsevišķu teksta gadījumu
for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
    // rakstīt teksta saturu konsolē
    Console.WriteLine(response.TextOccurrences.List[counter].Text);
}
Izvilkt pdf tekstu

No PDF dokumenta izvilkta teksta priekšskatījums.

Tālāk ir sniegta informācija par iepriekš minēto koda fragmentu.

PdfApi pdfApi = new PdfApi(clientSecret, clientID);

Pirmkārt, izveidojiet PdfApi klases gadījumu, kurā mēs nododam klienta akreditācijas datus kā argumentus.

String inputFile = "Binder1-1.pdf";
var sourceFile = System.IO.File.OpenRead(inputFile);

Ielādējiet ievades PDF faila saturu, lai straumētu gadījumu.

pdfApi.UploadFile("inputPDF.pdf", sourceFile);

Augšupielādējiet PDF dokumentu mākoņkrātuvē.

TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);

Izsauciet API, lai izvilktu tekstu no PDF faila noteiktās lapas koordinātēs.

for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
    // write text content in console
    Console.WriteLine(response.TextOccurrences.List[counter].Text);
}

Atkārtojiet sarakstu, kurā ir iegūti teksta gadījumi, un izdrukājiet teksta gadījumus konsolē.

Parsējiet tekstu no PDF, izmantojot cURL komandas

Izmantojot cURL komandas kopā ar Aspose.PDF Cloud API, varat bez pūlēm izvilkt teksta saturu no mākoņa krātuvē mitinātajiem PDF failiem. API atbalsta dažādus parametrus, lai pielāgotu ekstrakcijas procesu, ļaujot norādīt koordinātas un citas opcijas, lai precīzi izvilktu tekstu.

Pirmais solis ar šo pieeju ir JWT piekļuves pilnvaras ģenerēšana, izpildot šo komandu.

curl -v "https://api.aspose.cloud/connect/token" \
 -X POST \
 -d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
 -H "Content-Type: application/x-www-form-urlencoded" \
 -H "Accept: application/json"

Kad JWT marķieris ir ģenerēts, lūdzu, izpildiet šo komandu, lai izvilktu tekstu no PDF dokumenta.

curl -v "https://api.aspose.cloud/v3.0/pdf/{inputPDF}/text?splitRects=true&LLX=10&LLY=10&URX=800&URY=800" \
-X GET \
-H  "accept: application/json" \
-H  "authorization: Bearer {accessToken}" \
-o "extractedContent.txt"

Aizstājiet “inputPDF” ar tā PDF dokumenta nosaukumu, kas jau ir pieejams mākoņkrātuvē, un “accessToken” ar iepriekš ģenerētu JWT pilnvaru.

Secinājums

Visbeidzot, gan Aspose.PDF Cloud SDK for .NET, gan cURL komandu pieeja piedāvā efektīvus un uzticamus risinājumus teksta izvilkšanai no PDF dokumentiem. Aspose.PDF Cloud SDK .NET nodrošina visaptverošu un izstrādātājiem draudzīgu API ar plašu funkciju klāstu, padarot to par spēcīgu izvēli PDF teksta izvilkšanas integrēšanai .NET lietojumprogrammās. No otras puses, cURL komandu pieeja piedāvā elastīgu un no platformas neatkarīgu metodi mijiedarbībai ar Aspose.PDF Cloud API, padarot to par lielisku iespēju izstrādātājiem, kas strādā dažādās vidēs un programmēšanas valodās.

Noderīgas saites

Saistītie raksti

Mēs ļoti iesakām apmeklēt šādus emuārus: