Gyakran szükségünk van PDF fájlok szöveges fájlokká alakítására adatelemzés, keresési indexelés vagy tartalom újrafelhasználás céljából. Emellett, ha PDF-ből szöveget konvertáló eszközt szeretnél építeni, online OCR-t automatizálni, vagy szöveget másolni PDF dokumentumokból további feldolgozásra, API-nk megbízható és fejlesztőbarát megoldást nyújt.

PDF Átalakító API

Az Aspose.PDF Cloud SDK for .NET egy felhőalapú API, amely egyszerűsíti a dokumentumok szövegkivonását és a PDF-feldolgozást. Intelligensen kezeli mind a szöveg alapú, mind a kép alapú PDF-eket, pontos és strukturált kimenetet biztosít TXT formátumban.

A kulcsfontosságú jellemzők közé tartozik:

  • PDF to TXT fájlok kinyerése nagy pontossággal.
  • Cross-platform REST API — zökkenőmentesen működik C#, .NET Core vagy bármilyen HTTP támogatással rendelkező környezetben.
  • Támogatás részleges kinyeréshez — határozza meg a területeket, és nyerje ki a szöveget konkrét helyekről.

Ahhoz, hogy elkezdjük, add hozzá az SDK-t a .NET projektedhez a NuGet segítségével:

Install-Package Aspose.PDF-Cloud

Ezután látogasson el az Aspose Cloud Dashboard oldalra, hogy megszerezze a Client ID és Client Secret hitelesítő adatokat.

PDF to Text Conversion using C# .NET

Nézzük meg, hogyan lehet egy PDF fájlt szövegfájlra konvertálni C# nyelven a .NET REST API használatával.

  1. lépés - Hozzon létre egy PdfApi osztály példányt az ügyfél hitelesítő adatai felhasználásával.
PdfApi pdfApi = new PdfApi(clientSecret, clientID);

Step 2. - Olvassa be a PDF fájlt és töltse fel a felhő tárolóra.

var sourceFile = File.OpenRead(inputFile);
pdfApi.UploadFile("inputPDF.pdf", sourceFile);

Step 3. - Határozza meg a PDF-ben a téglalap alakú területet, és a szöveget a GetText(...) módszer segítségével nyerje ki.

TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);

Step 4. - Iterálj végig a szöveges előfordulásokat tartalmazó listán, és mentse el a helyi meghajtóra.

foreach (var textFragment in response.TextOccurrences.List)
{
    output.WriteLine(textFragment.Text);
}
// A teljes példákért és adatrostokért, kérjük, látogasson el a https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-dotnet oldalra.
// Obtain client credentials from https://dashboard.aspose.cloud/

// Hozzon létre egy PdfApi osztály példányt
var pdfApi = new PdfApi("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");

// Töltsd fel a PDF-et a felhő tárolóra.
using (var fileStream = File.OpenRead("inputPDF.pdf"))
{
    pdfApi.UploadFile("inputPDF.pdf", fileStream);
}

// Extract text from the uploaded PDF
var response = pdfApi.GetText("inputPDF.pdf", 0, 0, 800, 800, null, null, null, null, null);

// Mentse el a kinyert szöveget helyben
using (StreamWriter output = new StreamWriter("output.txt"))
{
    foreach (var textFragment in response.TextOccurrences.List)
    {
        output.WriteLine(textFragment.Text);
    }
}
Console.WriteLine("PDF to text conversion completed successfully!");

PDF fájl TXT fájlá konvertálása cURL segítségével

A fejlesztők számára, akik a szkriptekre vagy a platformok közötti munkafolyamatra helyezik a hangsúlyt, az Aspose.PDF Cloud REST API cURL parancsok használatával is elérhető.

Step 1. – Generálj egy hozzáférési tokent:

curl -v "https://api.aspose.cloud/connect/token" \
 -X POST \
 -d "grant_type=client_credentials&client_id=XXXXXXX-XXXXXX-ff5c3a6aa4a2&client_secret=XXXXXXXXXXX" \
 -H "Content-Type: application/x-www-form-urlencoded" \
 -H "Accept: application/json"
  1. lépés – Szöveg kinyerése PDF-ből Miután a JWT token létrejött, kérjük, hajtsa végre az alábbi parancsot a szöveg kiemeléséhez a PDF dokumentumból.
curl -v "https://api.aspose.cloud/v3.0/pdf/{inputPDF}/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-X GET \
-H  "accept: application/json" \
-H  "authorization: Bearer {ACCESS_TOKEN}" \
-o "resultant.txt"

Ez a cURL parancs lekezeli a szöveges tartalmat a PDF fájljából, és eltárolja egy .txt fájlban, így ideális módszer a PDF és a szövegfájl átalakítására automatizált környezetekben.

Próbálja ki a ingyenes PDF-ről szövegre konvertáló programot.

PDF-t TXT átalakítást keresel kódolás nélkül? Próbáld ki ingyenes Online PDF to Text Converter - az Aspose.PDF Cloud által támogatva. Egyszerűen töltsd fel a PDF fájlodat, és másodpercek alatt töltsd le a kinyert szövegfájlt.

extract text from PDF

Következtetés

A cikkben megtanultuk, hogy a PDF szöveggé történő átkonvertálása elengedhetetlen az információk hatékony kinyeréséhez és újrafelhasználásához. Az Aspose.PDF Cloud segítségével automatizálhatja a szöveg másolásának folyamatát a PDF fájlokból, kezelheti a beolvasott fájlokat online OCR használatával, és exportálhatja az adatokat struktúrált szövegként az analitika vagy a keresési indexelés céljából.

Gyakran Ismételt Kérdések (GYIK)

  1. Can I copy text from PDF programmatically? Abszolút. Az API lehetővé teszi, hogy szöveget másolj PDF fájlokból azáltal, hogy lekéri az összes szöveg előfordulást vagy kifejezetten megadott területekről extrahálja a szöveget koordináták segítségével.

  2. Mi a különbség a PDF-ből szövegbe és szövegből PDF-be? A PDF-ből szöveg kinyerése a dokumentumokból szöveges adatokat, míg a szövegből PDF egy új PDF dokumentumot hoz létre sima szöveges bemenetről. Az Aspose.PDF Cloud mindkét műveletet támogatja.

  3. Do I need Adobe Acrobat installed? Nem. Az Aspose.PDF Cloud SDK függetlenül működik az Adobe Acrobat-tól vagy bármely más szoftvertől. Minden PDF-ről szöveggé konvertáló művelet a felhőben történik.

  4. Is the extracted text accurate for complex layouts? Igen. Az API pontosan ki tudja vonni a szöveget több oszlopos elrendezésekből, táblázatokból és vegyes tartalmú PDF-ekből, megőrizve a tiszta és olvasható struktúrát az eredményül kapott TXT fájlban.

Hasznos linkek

Kapcsolódó cikkek

Határozottan ajánljuk a következő blogok meglátogatását: