เรามักต้องการแปลง PDF เป็นไฟล์ข้อความเพื่อใช้ในการวิเคราะห์ข้อมูล, การจัดทำดัชนีการค้นหา, หรือการนำเนื้อหาไปใช้ใหม่ นอกจากนี้ หากคุณต้องการสร้างตัวแปลง PDF เป็นข้อความ, ทำให้ OCR อัตโนมัติออนไลน์, หรือคัดลอกข้อความจากเอกสาร PDF สำหรับการประมวลผลต่อไป, REST API ของเรามีโซลูชันที่เชื่อถือได้และเป็นมิตรกับนักพัฒนา

API แปลง PDF

SDK Aspose.PDF Cloud สำหรับ .NET เป็น API ที่ใช้บริการคลาวด์ซึ่งช่วยให้การสกัดข้อความจากเอกสารและการประมวลผล PDF ทำได้ง่ายขึ้น มันจัดการกับ PDF ที่เป็นพื้นฐานข้อความและภาพได้อย่างชาญฉลาดโดยให้ผลลัพธ์ที่ถูกต้องและมีโครงสร้างในรูปแบบ TXT.

คุณสมบัติหลักประกอบด้วย:

  • PDF to TXT file extraction with high accuracy.
  • API REST ข้ามแพลตฟอร์ม — ทำงานได้อย่างราบรื่นใน C#, .NET Core, หรือสภาพแวดล้อมใด ๆ ที่มีการสนับสนุน HTTP.
  • สนับสนุนการดึงข้อมูลบางส่วน — กำหนดพื้นที่และดึงข้อความจากพื้นที่เฉพาะ

ในการเริ่มต้น ให้เพิ่ม SDK ลงในโปรเจกต์ .NET ของคุณโดยใช้ NuGet:

Install-Package Aspose.PDF-Cloud

จากนั้น ไปที่ Aspose Cloud Dashboard เพื่อรับรหัสประจำตัวลูกค้า (Client ID) และรหัสลับลูกค้า (Client Secret) ของคุณ

การแปลง PDF เป็นข้อความโดยใช้ C# .NET

มาดูกันว่าเราจะเปลี่ยนไฟล์ PDF เป็นไฟล์ข้อความใน C# โดยใช้ .NET REST API ได้อย่างไร

ขั้นตอนที่ 1. - สร้างอินสแตนซ์ของคลาส PdfApi โดยใช้ข้อมูลรับรองของลูกค้า。

PdfApi pdfApi = new PdfApi(clientSecret, clientID);

Step 2. - อ่านไฟล์ PDF ที่ป้อนเข้าและอัปโหลดไปยังพื้นที่เก็บข้อมูลคลาวด์。

var sourceFile = File.OpenRead(inputFile);
pdfApi.UploadFile("inputPDF.pdf", sourceFile);

ขั้นตอนที่ 3. - ระบุภูมิภาคสี่เหลี่ยมผืนผ้าใน PDF และดึงข้อความโดยใช้วิธีการ GetText(...)

TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);

Step 4. - Iterate through List containing text occurrences and save it to local drive.

foreach (var textFragment in response.TextOccurrences.List)
{
    output.WriteLine(textFragment.Text);
}
// สำหรับตัวอย่างและไฟล์ข้อมูลทั้งหมด กรุณาไปที่ https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-dotnet
// รับข้อมูลรับรองของลูกค้าจาก https://dashboard.aspose.cloud/

// สร้าง Instance ของคลาส PdfApi
var pdfApi = new PdfApi("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");

// อัพโหลด PDF ไปยังพื้นที่เก็บข้อมูลบนคลาวด์
using (var fileStream = File.OpenRead("inputPDF.pdf"))
{
    pdfApi.UploadFile("inputPDF.pdf", fileStream);
}

// Extract text from the uploaded PDF
var response = pdfApi.GetText("inputPDF.pdf", 0, 0, 800, 800, null, null, null, null, null);

// บันทึกข้อความที่ถูกดึงออกมาไว้ในเครื่อง
using (StreamWriter output = new StreamWriter("output.txt"))
{
    foreach (var textFragment in response.TextOccurrences.List)
    {
        output.WriteLine(textFragment.Text);
    }
}
Console.WriteLine("PDF to text conversion completed successfully!");

แปลง PDF เป็นไฟล์ TXT โดยใช้ cURL

สำหรับนักพัฒนาที่ชอบการเขียนสคริปต์หรือการทำงานข้ามแพลตฟอร์ม สามารถเข้าถึง Aspose.PDF Cloud REST API ได้โดยใช้คำสั่ง cURL

ขั้นตอนที่ 1. – สร้าง Access Token:

curl -v "https://api.aspose.cloud/connect/token" \
 -X POST \
 -d "grant_type=client_credentials&client_id=XXXXXXX-XXXXXX-ff5c3a6aa4a2&client_secret=XXXXXXXXXXX" \
 -H "Content-Type: application/x-www-form-urlencoded" \
 -H "Accept: application/json"

ขั้นตอนที่ 2. – ดึงข้อความจาก PDF เมื่อ JWT token ถูกสร้างขึ้นแล้ว กรุณาเรียกใช้คำสั่งต่อไปนี้เพื่อดึงข้อความจากเอกสาร PDF.

curl -v "https://api.aspose.cloud/v3.0/pdf/{inputPDF}/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-X GET \
-H  "accept: application/json" \
-H  "authorization: Bearer {ACCESS_TOKEN}" \
-o "resultant.txt"

คำสั่ง cURL นี้ดึงเนื้อหาข้อความจากไฟล์ PDF ของคุณและเก็บไว้ในไฟล์ .txt ทำให้เป็นวิธีที่เหมาะสมสำหรับการแปลง PDF เป็นไฟล์ข้อความในสภาพแวดล้อมอัตโนมัติ

ลองแปลง PDF เป็นข้อความฟรี

คุณกำลังมองหาการแปลง PDF เป็น TXT โดยไม่ต้องเขียนโค้ดอยู่หรือไม่? ลองใช้ เครื่องแปลง PDF เป็นข้อความออนไลน์ฟรี ของเรา — โดยใช้พลังจาก Aspose.PDF Cloud เพียงแค่อัปโหลด PDF ของคุณและดาวน์โหลดไฟล์ข้อความที่แยกออกมาในไม่กี่วินาที

extract text from PDF

สรุป

ในบทความนี้ เราได้เรียนรู้ว่าการแปลง PDF เป็นข้อความเป็นสิ่งจำเป็นสำหรับการดึงข้อมูลและนำกลับมาใช้ใหม่อย่างมีประสิทธิภาพ ด้วย Aspose.PDF Cloud คุณสามารถทำให้กระบวนการคัดลอกข้อความจาก PDF เป็นอัตโนมัติ จัดการไฟล์ที่สแกนโดยใช้ OCR ออนไลน์ และส่งออกข้อมูลเป็นข้อความที่มีโครงสร้างสำหรับการวิเคราะห์หรือดัชนีการค้นหา

คำถามที่พบบ่อย (FAQs)

  1. Can I copy text from PDF programmatically? แน่นอน API ช่วยให้คุณคัดลอกข้อความจากไฟล์ PDF โดยการดึงข้อมูลข้อความทั้งหมดหรือการดึงข้อมูลจากพื้นที่เฉพาะโดยใช้พิกัด

  2. ความแตกต่างระหว่าง PDF เป็นข้อความ และ ข้อความ เป็น PDF คืออะไร? PDF to text ดึงข้อมูลข้อความจากเอกสาร ขณะที่ text to PDF สร้างเอกสาร PDF ใหม่จากข้อมูลข้อความธรรมดา Aspose.PDF Cloud รองรับทั้งสองการดำเนินการ

  3. Do I need Adobe Acrobat installed? ไม่. Aspose.PDF Cloud SDK ทำงานอย่างอิสระจาก Adobe Acrobat หรือซอฟต์แวร์อื่นใด การดำเนินการแปลง PDF เป็นข้อความทั้งหมดจะเกิดขึ้นในคลาวด์

  4. การถอดข้อความที่ได้มีความแม่นยำสำหรับเลย์เอาต์ที่ซับซ้อนหรือไม่? ใช่. API สามารถดึงข้อความจากเลย์เอาต์หลายคอลัมน์ ตาราง และไฟล์ PDF เนื้อหาผสมได้อย่างแม่นยำ โดยรักษาโครงสร้างที่สะอาดและอ่านง่ายในไฟล์ TXT ที่ได้

ลิงก์ที่มีประโยชน์

บทความที่เกี่ยวข้อง

เราขอแนะนำให้เข้าชมบล็อกต่อไปนี้: