เรามักต้องการแปลง PDF เป็นไฟล์ข้อความเพื่อใช้ในการวิเคราะห์ข้อมูล, การจัดทำดัชนีการค้นหา, หรือการนำเนื้อหาไปใช้ใหม่ นอกจากนี้ หากคุณต้องการสร้างตัวแปลง PDF เป็นข้อความ, ทำให้ OCR อัตโนมัติออนไลน์, หรือคัดลอกข้อความจากเอกสาร PDF สำหรับการประมวลผลต่อไป, REST API ของเรามีโซลูชันที่เชื่อถือได้และเป็นมิตรกับนักพัฒนา
API แปลง PDF
SDK Aspose.PDF Cloud สำหรับ .NET เป็น API ที่ใช้บริการคลาวด์ซึ่งช่วยให้การสกัดข้อความจากเอกสารและการประมวลผล PDF ทำได้ง่ายขึ้น มันจัดการกับ PDF ที่เป็นพื้นฐานข้อความและภาพได้อย่างชาญฉลาดโดยให้ผลลัพธ์ที่ถูกต้องและมีโครงสร้างในรูปแบบ TXT.
คุณสมบัติหลักประกอบด้วย:
- PDF to TXT file extraction with high accuracy.
- API REST ข้ามแพลตฟอร์ม — ทำงานได้อย่างราบรื่นใน C#, .NET Core, หรือสภาพแวดล้อมใด ๆ ที่มีการสนับสนุน HTTP.
- สนับสนุนการดึงข้อมูลบางส่วน — กำหนดพื้นที่และดึงข้อความจากพื้นที่เฉพาะ
ในการเริ่มต้น ให้เพิ่ม SDK ลงในโปรเจกต์ .NET ของคุณโดยใช้ NuGet:
Install-Package Aspose.PDF-Cloud
จากนั้น ไปที่ Aspose Cloud Dashboard เพื่อรับรหัสประจำตัวลูกค้า (Client ID) และรหัสลับลูกค้า (Client Secret) ของคุณ
การแปลง PDF เป็นข้อความโดยใช้ C# .NET
มาดูกันว่าเราจะเปลี่ยนไฟล์ PDF เป็นไฟล์ข้อความใน C# โดยใช้ .NET REST API ได้อย่างไร
ขั้นตอนที่ 1. - สร้างอินสแตนซ์ของคลาส PdfApi
โดยใช้ข้อมูลรับรองของลูกค้า。
PdfApi pdfApi = new PdfApi(clientSecret, clientID);
Step 2. - อ่านไฟล์ PDF ที่ป้อนเข้าและอัปโหลดไปยังพื้นที่เก็บข้อมูลคลาวด์。
var sourceFile = File.OpenRead(inputFile);
pdfApi.UploadFile("inputPDF.pdf", sourceFile);
ขั้นตอนที่ 3. - ระบุภูมิภาคสี่เหลี่ยมผืนผ้าใน PDF และดึงข้อความโดยใช้วิธีการ GetText(...)
TextRectsResponse response = pdfApi.GetText("inputPDF.pdf", LLX, LLY, URX, URY, null, null, null, null, null);
Step 4. - Iterate through List containing text occurrences and save it to local drive.
foreach (var textFragment in response.TextOccurrences.List)
{
output.WriteLine(textFragment.Text);
}
// สำหรับตัวอย่างและไฟล์ข้อมูลทั้งหมด กรุณาไปที่ https://github.com/aspose-pdf-cloud/aspose-pdf-cloud-dotnet
// รับข้อมูลรับรองของลูกค้าจาก https://dashboard.aspose.cloud/
// สร้าง Instance ของคลาส PdfApi
var pdfApi = new PdfApi("YOUR_CLIENT_ID", "YOUR_CLIENT_SECRET");
// อัพโหลด PDF ไปยังพื้นที่เก็บข้อมูลบนคลาวด์
using (var fileStream = File.OpenRead("inputPDF.pdf"))
{
pdfApi.UploadFile("inputPDF.pdf", fileStream);
}
// Extract text from the uploaded PDF
var response = pdfApi.GetText("inputPDF.pdf", 0, 0, 800, 800, null, null, null, null, null);
// บันทึกข้อความที่ถูกดึงออกมาไว้ในเครื่อง
using (StreamWriter output = new StreamWriter("output.txt"))
{
foreach (var textFragment in response.TextOccurrences.List)
{
output.WriteLine(textFragment.Text);
}
}
Console.WriteLine("PDF to text conversion completed successfully!");
แปลง PDF เป็นไฟล์ TXT โดยใช้ cURL
สำหรับนักพัฒนาที่ชอบการเขียนสคริปต์หรือการทำงานข้ามแพลตฟอร์ม สามารถเข้าถึง Aspose.PDF Cloud REST API ได้โดยใช้คำสั่ง cURL
ขั้นตอนที่ 1. – สร้าง Access Token:
curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=XXXXXXX-XXXXXX-ff5c3a6aa4a2&client_secret=XXXXXXXXXXX" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"
ขั้นตอนที่ 2. – ดึงข้อความจาก PDF เมื่อ JWT token ถูกสร้างขึ้นแล้ว กรุณาเรียกใช้คำสั่งต่อไปนี้เพื่อดึงข้อความจากเอกสาร PDF.
curl -v "https://api.aspose.cloud/v3.0/pdf/{inputPDF}/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-X GET \
-H "accept: application/json" \
-H "authorization: Bearer {ACCESS_TOKEN}" \
-o "resultant.txt"
คำสั่ง cURL นี้ดึงเนื้อหาข้อความจากไฟล์ PDF ของคุณและเก็บไว้ในไฟล์ .txt ทำให้เป็นวิธีที่เหมาะสมสำหรับการแปลง PDF เป็นไฟล์ข้อความในสภาพแวดล้อมอัตโนมัติ
ลองแปลง PDF เป็นข้อความฟรี
คุณกำลังมองหาการแปลง PDF เป็น TXT โดยไม่ต้องเขียนโค้ดอยู่หรือไม่? ลองใช้ เครื่องแปลง PDF เป็นข้อความออนไลน์ฟรี ของเรา — โดยใช้พลังจาก Aspose.PDF Cloud เพียงแค่อัปโหลด PDF ของคุณและดาวน์โหลดไฟล์ข้อความที่แยกออกมาในไม่กี่วินาที

สรุป
ในบทความนี้ เราได้เรียนรู้ว่าการแปลง PDF เป็นข้อความเป็นสิ่งจำเป็นสำหรับการดึงข้อมูลและนำกลับมาใช้ใหม่อย่างมีประสิทธิภาพ ด้วย Aspose.PDF Cloud คุณสามารถทำให้กระบวนการคัดลอกข้อความจาก PDF เป็นอัตโนมัติ จัดการไฟล์ที่สแกนโดยใช้ OCR ออนไลน์ และส่งออกข้อมูลเป็นข้อความที่มีโครงสร้างสำหรับการวิเคราะห์หรือดัชนีการค้นหา
คำถามที่พบบ่อย (FAQs)
-
Can I copy text from PDF programmatically? แน่นอน API ช่วยให้คุณคัดลอกข้อความจากไฟล์ PDF โดยการดึงข้อมูลข้อความทั้งหมดหรือการดึงข้อมูลจากพื้นที่เฉพาะโดยใช้พิกัด
-
ความแตกต่างระหว่าง PDF เป็นข้อความ และ ข้อความ เป็น PDF คืออะไร? PDF to text ดึงข้อมูลข้อความจากเอกสาร ขณะที่ text to PDF สร้างเอกสาร PDF ใหม่จากข้อมูลข้อความธรรมดา Aspose.PDF Cloud รองรับทั้งสองการดำเนินการ
-
Do I need Adobe Acrobat installed? ไม่. Aspose.PDF Cloud SDK ทำงานอย่างอิสระจาก Adobe Acrobat หรือซอฟต์แวร์อื่นใด การดำเนินการแปลง PDF เป็นข้อความทั้งหมดจะเกิดขึ้นในคลาวด์
-
การถอดข้อความที่ได้มีความแม่นยำสำหรับเลย์เอาต์ที่ซับซ้อนหรือไม่? ใช่. API สามารถดึงข้อความจากเลย์เอาต์หลายคอลัมน์ ตาราง และไฟล์ PDF เนื้อหาผสมได้อย่างแม่นยำ โดยรักษาโครงสร้างที่สะอาดและอ่านง่ายในไฟล์ TXT ที่ได้
ลิงก์ที่มีประโยชน์
บทความที่เกี่ยวข้อง
เราขอแนะนำให้เข้าชมบล็อกต่อไปนี้: