PDF(Portable Document Format) ไฟล์เป็นหนึ่งในรูปแบบที่เชื่อถือได้และใช้กันอย่างแพร่หลายที่สุดสำหรับการแชร์เอกสารในแพลตฟอร์มต่างๆ—เพื่อให้มีการจัดเรียงและลักษณะที่สอดคล้องกันไม่ว่าจะเป็นซอฟต์แวร์หรืออุปกรณ์ใดก็ตาม อย่างไรก็ตาม มีสถานการณ์ที่นักพัฒนาจำเป็นต้องดึงข้อความจากไฟล์ PDF อย่างเป็นโปรแกรม เช่น การวิเคราะห์เนื้อหา การจัดทำดัชนีเอกสาร หรือการแปลง PDF เป็นรูปแบบข้อความที่สามารถแก้ไขได้

ในบทความนี้ เราจะสำรวจวิธีการดึงข้อความจากไฟล์ PDF และสร้างเครื่องมือแปลง PDF เป็นข้อความ โดยใช้ .NET REST API ซึ่งช่วยให้สามารถดึงข้อความได้อย่างราบรื่นและอัตโนมัติผ่านการเรียก REST API

API การประมวลผล PDF

ใช้พลังของ Aspose.PDF Cloud SDK for .NET เพื่อดึงข้อความจากไฟล์ PDF อย่างมีประสิทธิภาพ นอกเหนือจากการดึงข้อความ SDK ยังช่วยให้คุณสามารถสร้างเอกสาร PDF จากศูนย์หรือตัวอย่าง แก้ไขไฟล์ PDF ที่มีอยู่ และแปลงเป็นรูปแบบที่รองรับอื่นๆ นอกจากนี้คุณสามารถดำเนินการงานต่างๆ เช่น การถอดรหัส การรวม และการจัดการไฟล์ PDF โดยตรงผ่าน .NET REST API

ตอนนี้เพื่อเริ่มต้น เราจำเป็นต้องติดตั้ง SDK ในโปรเจ็กต์ .NET ของเรา

NuGet\Install-Package Aspose.Pdf-Cloud -Version 25.9.0

เรา还需要在 Cloud Dashboard 创建一个免费账户并获取我们的个性化客户端凭据。

ทำการแปลง PDF เป็นข้อความใน C#

โปรดปฏิบัติตามขั้นตอนที่ระบุไว้ด้านล่างเพื่อดึงข้อความจากไฟล์ PDF โดยใช้ C# .NET।

PdfApi pdfApi = new PdfApi(clientSecret, clientID);

สร้างวัตถุของคลาส PdfApi โดยที่เราผ่านข้อมูลประจำตัวของลูกค้าที่ได้รับข้างต้นเป็นอาร์กิวเมนต์

String inputFile = "sourceFile.pdf";
var sourceFile = System.IO.File.OpenRead(inputFile);
pdfApi.UploadFile("sourceFile.pdf", sourceFile);

อ่านไฟล์ PDF จากไดรฟ์โลcal และอัปโหลดไปยังที่เก็บข้อมูลคลาวด์โดยใช้ UploadFile(...) วิธีการ.

TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);

เราจำเป็นต้องระบุภูมิภาคในไฟล์ PDF ที่เราต้องการดึงเนื้อหาข้อความโดยใช้วิธีการ GetText(...)

for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
    // write text content in console
    Console.WriteLine(response.TextOccurrences.List[counter].Text);
}

เมื่อเนื้อหาข้อความถูกดึงขึ้นมาแล้ว เราสามารถบันทึกลงในดิสก์ท้องถิ่นหรือพิมพ์มันในคอนโซลได้

// สำหรับตัวอย่างเพิ่มเติม กรุณาเยี่ยมชม https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-dotnet

// รับข้อมูลประจำตัวของลูกค้าได้ที่ https://dashboard.aspose.cloud/
string clientSecret = "XXXXXXXXX";
string clientID = "XXXXXX-XXXXXXX-be35-ff5c3a6aa4a2";

// สร้างวัตถุของ PdfApi โดยส่งข้อมูลรับรองของไคลเอนต์เป็นอาร์กิวเมนต์
PdfApi pdfApi = new PdfApi(clientSecret, clientID);

// Input PDF file name
String inputFile = "input.pdf";
// โหลดไฟล์ PDF ลงในอินสแตนซ์สตรีม
var sourceFile = OpenRead(inputFile);

// อัปโหลดไฟล์ PDF ไปยังที่เก็บข้อมูลคลาวด์
pdfApi.UploadFile("inputPDF.pdf", sourceFile);

// พิกัด X ของมุมล่าง - ซ้าย
Double LLX = 200.0;
// พิกัด Y ของมุมล่างซ้าย.
Double LLY = 200.0;
// พิกัด X ของมุมบนขวามือ
Double URX = 600.0;
// Y - พิกัดของมุมขวาบน.
Double URY = 650.0;

// เรียก API เพื่อดึงข้อความจากพิกัดที่ระบุ
TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);

// ตอนนี้ให้ทำการวนซ้ำผ่านแต่ละการปรากฏของข้อความและพิมพ์ในคอนโซล
// ทางเลือกอื่นคือ เราสามารถบันทึกผลลัพธ์ลงในไฟล์ .txt ได้โดยตรง
for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
    // write text content in console
    Console.WriteLine(response.TextOccurrences.List[counter].Text);
}

การดึงข้อมูลจาก PDF โดยใช้ cURL

นอกจากการใช้โค้ด .NET หรือ Java snippets คุณยังสามารถดึงข้อความจากไฟล์ PDF ได้โดยใช้ Aspose.PDF Cloud ผ่านคำสั่ง cURL ดังนั้นในวิธีการนี้ ข้อกำหนดเบื้องต้นคือการสร้าง JWT access token (ตามข้อมูลรับรองของลูกค้า) ซึ่งสามารถทำได้โดยใช้คำสั่งต่อไปนี้

ขั้นตอนที่ 1. - รับโทเค็น JWTAccess:

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=XXXXX-XXXXX-XXXXXX-ff5c3a6aa4a2&client_secret=XXXXXXXXXXXX" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

ขั้นตอนที่ 1. - สกัดข้อความจากไฟล์ PDF:

curl -v "https://api.aspose.cloud/v3.0/pdf/{inputPDF}/text?splitRects=true&LLX=10&LLY=10&URX=800&URY=800" \
-X GET \
-H  "accept: application/json" \
-H  "authorization: Bearer {Access_Token}" \
-o "extractedContent.txt"
  • เมื่อคำสั่งถูกดำเนินการสำเร็จ ข้อความจากพื้นที่รูปสี่เหลี่ยมผืนผ้าที่กำหนดจะถูกดึงออกมาในรูปแบบไฟล์ข้อความ

แอปพาร์เซอร์ PDF ฟรี

ถ้าคุณกำลังมองหาที่จะทดสอบความสามารถของ API โดยปราศจากการเขียนโค้ดหรือคำสั่ง cURL ลองใช้แอปพลิเคชัน [Free PDF Parser] ของเราที่สร้างขึ้นบนพื้นฐานของ .NET REST APIs

pdf parser app

ข้อสรุป

ในบทความนี้ เราได้เรียนรู้รายละเอียดเกี่ยวกับการรวม Aspose.PDF Cloud SDK สำหรับ .NET เข้ากับโครงการ .NET ของเราเพื่อวัตถุประสงค์ในการสกัดข้อความ และในเวลาเดียวกัน เราได้สำรวจทางเลือกในการใช้คำสั่ง cURL เพื่อทำการสกัดข้อความ PDF ผ่านทางส่วนติดต่อบรรทัดคำสั่ง ดังนั้น ไม่ว่าจุดประสงค์ของคุณจะเป็นการวิเคราะห์ข้อมูล การเรียนรู้ของเครื่อง หรือวัตถุประสงค์อื่น ๆ ที่เกี่ยวกับการทำงานอัตโนมัติ SDK จะมอบเครื่องมือที่เชื่อถือได้ให้คุณจัดการเนื้อหา PDF ได้อย่างมีประสิทธิภาพ นำทักษะเหล่านี้ไปปฏิบัติและทำให้การจัดการ PDF ของคุณเป็นไปอย่างมีประสิทธิภาพเหมือนมืออาชีพ!

เนื้อหาสำหรับการอ่าน

บทความที่เกี่ยวข้อง

เราขอแนะนำให้เยี่ยมชมลิงก์ต่อไปนี้เพื่อเรียนรู้เพิ่มเติมเกี่ยวกับ: