สกัดข้อความ PDF

แยกข้อความจาก PDF โดยใช้ .NET REST API

เอกสาร PDF กลายเป็นมาตรฐานสำหรับการแบ่งปันและแลกเปลี่ยนข้อมูลระหว่างแพลตฟอร์มและอุปกรณ์ต่างๆ แม้ว่า PDF จะมีรูปแบบที่ปลอดภัยและสอดคล้องกัน แต่การแยกข้อมูลสำคัญออกจากเอกสารเหล่านี้อาจเป็นงานที่น่ากังวล โดยเฉพาะอย่างยิ่งเมื่อต้องจัดการกับข้อมูลจำนวนมาก ไม่ว่าคุณจะต้องแยกข้อความเพื่อวิเคราะห์ ป้อนข้อมูล หรือจัดการเนื้อหา โซลูชันการแยกข้อความที่เชื่อถือได้และมีประสิทธิภาพถือเป็นสิ่งสำคัญ ในบทความนี้ เราจะเจาะลึกเข้าไปในโลกของการแยกข้อความจากไฟล์ PDF โดยใช้ .NET REST API ซึ่งขับเคลื่อนโดย Aspose.PDF Cloud SDK ที่แข็งแกร่ง

REST API สำหรับการประมวลผล PDF

Aspose.PDF Cloud SDK for .NET เป็น API ที่แข็งแกร่งและใช้งานง่ายซึ่งช่วยลดความซับซ้อนในการแยกข้อความจาก PDF หนึ่งในคุณสมบัติที่โดดเด่นของ Aspose.PDF Cloud SDK for .NET คือความสามารถในการจัดการโครงสร้าง PDF ที่ซับซ้อนและแยกข้อความจากเอกสารที่มีรูปแบบต่างๆ ได้อย่างแม่นยำ ไม่ว่า PDF จะมีข้อความ รูปภาพ ตาราง หรือองค์ประกอบที่ซับซ้อนอื่นๆ API ก็สามารถนำทางผ่านเอกสารได้อย่างชาญฉลาดและเรียกค้นเนื้อหาข้อความได้อย่างแม่นยำ ดังนั้น คุณสมบัติที่ทรงพลัง ความแม่นยำ และความง่ายในการผสานรวมจึงทำให้เป็นตัวเลือกในอุดมคติในการแยกข้อมูลข้อความที่มีค่าจากเอกสาร PDF ภายในแอปพลิเคชัน .NET

ตอนนี้ เพื่อเริ่มต้นใช้งานฟีเจอร์นี้ ขั้นตอนแรกคือการเพิ่มการอ้างอิงของ Cloud SDK ในโซลูชัน .NET ของเรา ดังนั้น ให้ค้นหา Aspose.PDF-Cloud ในตัวจัดการแพ็กเกจ NuGet แล้วคลิกปุ่ม เพิ่มแพ็กเกจ ประการที่สอง ไปที่ แดชบอร์ดคลาวด์ และรับข้อมูลประจำตัวไคลเอนต์ส่วนบุคคลของคุณ

แยกข้อความ PDF โดยใช้ C# .NET

ในส่วนนี้เราจะมาเจาะลึกรายละเอียดในการแยกข้อความจาก PDF ด้วยโปรแกรม

// สำหรับตัวอย่างและไฟล์ข้อมูลแบบสมบูรณ์ โปรดไปที่ 
https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-dotnet

// รับข้อมูลประจำตัวลูกค้าจาก https://dashboard.aspose.cloud/
string clientSecret = "4d84d5f6584160cbd91dba1fe145db14";
string clientID = "bb959721-5780-4be6-be35-ff5c3a6aa4a2";

// สร้างอินสแตนซ์ของ PdfApi
PdfApi pdfApi = new PdfApi(clientSecret, clientID);

// ป้อนชื่อไฟล์ PDF
String inputFile = "Binder1-1.pdf";
// อ่านเนื้อหาไฟล์ PDF ลงในอินสแตนซ์สตรีม
var sourceFile = System.IO.File.OpenRead(inputFile);

// อัพโหลดไฟล์ PDF ไปยังที่เก็บข้อมูลบนคลาวด์
pdfApi.UploadFile("inputPDF.pdf", sourceFile);

// พิกัด x ของมุมล่างซ้าย
Double LLX = 500.0;
// Y - พิกัดมุมล่างซ้าย
Double LLY = 500.0;
// X - พิกัดมุมบนขวา
Double URX = 800.0;
// Y - พิกัดมุมบนขวา
Double URY = 800.0;

// เรียกใช้ API เพื่อดึงข้อความจากพิกัดบางอย่างบนเอกสาร PDF
TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);

// การเคลื่อนที่ผ่านข้อความที่เกิดขึ้นเป็นรายบุคคล
for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
    // เขียนเนื้อหาข้อความในคอนโซล
    Console.WriteLine(response.TextOccurrences.List[counter].Text);
}
การแยกข้อความ PDF

ตัวอย่างข้อความที่ดึงมาจากเอกสาร PDF

ด้านล่างนี้เป็นรายละเอียดที่เกี่ยวข้องกับตัวอย่างโค้ดที่ระบุไว้ข้างต้น

PdfApi pdfApi = new PdfApi(clientSecret, clientID);

ขั้นแรก ให้สร้างอินสแตนซ์ของคลาส PdfApi ที่เราส่งข้อมูลประจำตัวไคลเอนต์เป็นอาร์กิวเมนต์

String inputFile = "Binder1-1.pdf";
var sourceFile = System.IO.File.OpenRead(inputFile);

โหลดเนื้อหาไฟล์ PDF อินพุตลงในอินสแตนซ์สตรีม

pdfApi.UploadFile("inputPDF.pdf", sourceFile);

อัปโหลดเอกสาร PDF ไปยังที่เก็บข้อมูลบนคลาวด์

TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);

เรียก API เพื่อแยกข้อความจากไฟล์ PDF ตามพิกัดหน้าที่กำหนด

for (int counter = 0; counter <= response.TextOccurrences.List.Count - 1; counter++)
{
    // write text content in console
    Console.WriteLine(response.TextOccurrences.List[counter].Text);
}

ทำซ้ำผ่านรายการที่มีข้อความที่แยกออกมา และพิมพ์อินสแตนซ์ข้อความในคอนโซล

แยกข้อความจาก PDF โดยใช้คำสั่ง cURL

การใช้คำสั่ง cURL ร่วมกับ Aspose.PDF Cloud API ช่วยให้คุณสามารถแยกเนื้อหาข้อความจากไฟล์ PDF ที่โฮสต์บนระบบคลาวด์ได้อย่างง่ายดาย API รองรับพารามิเตอร์ต่างๆ เพื่อปรับแต่งกระบวนการแยก ทำให้คุณสามารถระบุพิกัดและตัวเลือกอื่นๆ เพื่อแยกข้อความได้อย่างแม่นยำ

ขั้นตอนแรกในการดำเนินการตามแนวทางนี้คือการสร้างโทเค็นการเข้าถึง JWT ในขณะดำเนินการคำสั่งต่อไปนี้

curl -v "https://api.aspose.cloud/connect/token" \
 -X POST \
 -d "grant_type=client_credentials&client_id=bb959721-5780-4be6-be35-ff5c3a6aa4a2&client_secret=4d84d5f6584160cbd91dba1fe145db14" \
 -H "Content-Type: application/x-www-form-urlencoded" \
 -H "Accept: application/json"

หลังจากที่สร้างโทเค็น JWT แล้ว โปรดดำเนินการคำสั่งต่อไปนี้เพื่อดึงข้อความจากเอกสาร PDF

curl -v "https://api.aspose.cloud/v3.0/pdf/{inputPDF}/text?splitRects=true&LLX=10&LLY=10&URX=800&URY=800" \
-X GET \
-H  "accept: application/json" \
-H  "authorization: Bearer {accessToken}" \
-o "extractedContent.txt"

แทนที่ inputPDF ด้วยชื่อเอกสาร PDF ที่มีอยู่แล้วในระบบจัดเก็บข้อมูลบนคลาวด์ และ accessToken ด้วยโทเค็น JWT ที่สร้างขึ้นด้านบน

บทสรุป

โดยสรุป Aspose.PDF Cloud SDK สำหรับ .NET และแนวทางคำสั่ง cURL ต่างก็เสนอโซลูชันที่มีประสิทธิภาพและเชื่อถือได้สำหรับการแยกข้อความจากเอกสาร PDF Aspose.PDF Cloud SDK สำหรับ .NET มอบ API ที่ครอบคลุมและเป็นมิตรต่อนักพัฒนาพร้อมฟีเจอร์มากมาย ทำให้เป็นตัวเลือกที่ทรงพลังสำหรับการผสานการแยกข้อความ PDF เข้ากับแอปพลิเคชัน .NET ในทางกลับกัน แนวทางคำสั่ง cURL นำเสนอวิธีการที่ยืดหยุ่นและไม่ขึ้นอยู่กับแพลตฟอร์มในการโต้ตอบกับ Aspose.PDF Cloud API ทำให้เป็นตัวเลือกที่ยอดเยี่ยมสำหรับนักพัฒนาที่ทำงานในสภาพแวดล้อมและภาษาการเขียนโปรแกรมที่แตกต่างกัน

ลิงค์ที่เป็นประโยชน์

บทความที่เกี่ยวข้อง

เราขอแนะนำให้เยี่ยมชมบล็อกต่อไปนี้: