pdf ტექსტზე

როგორ გადავიტანოთ PDF ტექსტად პითონში

დღევანდელ ციფრულ სამყაროს აქვს ინფორმაციის სიმრავლე და PDF დოკუმენტებიდან ტექსტის ამოღების შესაძლებლობა არა მხოლოდ მოხერხებულობად, არამედ აუცილებლობად იქცა. წარმოიდგინეთ, რომ ათვალიერებთ გრძელ PDF ფაილს, ეძებთ იმ კრიტიკულ ინფორმაციას თქვენს კვლევაში ციტირებისთვის, ან შესაძლოა, თქვენ მართავთ დოკუმენტების საცავს, ცდილობთ ამოიღოთ მონაცემები ანალიზისთვის. ამ და ბევრ სხვა სცენარში, PDF შინაარსის უბრალო ტექსტად გადაქცევის შესაძლებლობა ჩნდება როგორც თამაშის შემცვლელი. ეს სტატია იკვლევს Python Cloud SDK-ის გამოყენებით PDF ფაილებიდან ტექსტის ამოღების ღრმა მიზანს და უდავო სარგებელს. ეს ტრანსფორმაცია საშუალებას აძლევს ინდივიდებსა და ორგანიზაციებს ეფექტურად მართონ, გააანალიზონ და გამოიყენონ ციფრული კონტენტი სამყაროში, სადაც ინფორმაციას უდიდესი მნიშვნელობა აქვს.

PDF-ის ტექსტში კონვერტაციის REST API

PDF დოკუმენტებიდან ტექსტის ამოღების მიღწევა ხდება შეუფერხებლად და ეფექტურად Aspose.PDF Cloud SDK for Python-ით. ეს მრავალმხრივი SDK საშუალებას გაძლევთ მარტივად გადაიყვანოთ PDF შინაარსი უბრალო ტექსტად, განბლოკოთ ამ ციფრულ დოკუმენტებში შენახული ინფორმაცია.

Cloud SDK ხელმისაწვდომია უფასო ჩამოტვირთვისთვის PIP და GitHub საცავიდან. ახლა შეასრულეთ შემდეგი ბრძანება ტერმინალზე/ბრძანების სტრიქონზე, რომ დააინსტალიროთ SDK-ის უახლესი ვერსია:

 pip install asposepdfcloud

თუ იყენებთ PyCharm IDE-ს, შეგიძლიათ პირდაპირ დაამატოთ SDK, როგორც დამოკიდებულება თქვენს პროექტში.

ფაილი ->პარამეტრები ->პროექტი ->Python Interpreter ->asposepdfcloud

ინსტალაციის შემდეგ, შემდეგი მნიშვნელოვანი ნაბიჯი არის ჩვენი ღრუბლოვანი სერვისების უფასო გამოწერა Aspose.Cloud dashboard-ის მეშვეობით. თუ გაქვთ GitHub ან Google ანგარიში, უბრალოდ დარეგისტრირდით ან დააწკაპუნეთ ღილაკზე Create a new Account. ახლა შედით საინფორმაციო დაფაზე და მიიღეთ თქვენი პერსონალიზებული კლიენტის ID და კლიენტის საიდუმლო დეტალები.

ტექსტის ამოღება PDF-დან პითონში

გთხოვთ, მიჰყვეთ ქვემოთ მოცემულ ინსტრუქციებს, რომ ამოიღოთ ტექსტი PDF დოკუმენტებიდან Python SDK-ის გამოყენებით.

  • უპირველეს ყოვლისა, შექმენით ApiClient კლასის ინსტანცია არგუმენტებად Client ID Client Secret-ის მიწოდებისას.
  • მეორეც, შექმენით PdfApi კლასის მაგალითი, რომელიც იღებს ApiClient ობიექტს შეყვანის არგუმენტად.
  • ახლა გამოიძახეთ მეთოდი gettext(…) LLX, LLY, URX და URY კოორდინატების მიწოდებისას.
def extractText():
    try:
        #Client credentials
        client_secret = "1c9379bb7d701c26cc87e741a29987bb"
        client_id = "bbf94a2c-6d7e-4020-b4d2-b9809741374e"

        #initialize PdfApi client instance using client credetials
        pdf_api_client = asposepdfcloud.api_client.ApiClient(client_secret, client_id)

        # შექმენით PdfApi ინსტანცია PdfApiClient-ის არგუმენტად გადაცემისას
        pdf_api = PdfApi(pdf_api_client)

        #source image file
        input_file = 'awesomeTable.pdf'
        
        # დარეკეთ მეთოდს ტექსტის ამოსაღებად
        response = pdf_api.get_text(name = input_file, llx=0,lly=0, urx=800, ury =800)
        print(response)
        
        # შეტყობინების ამობეჭდვა კონსოლში (სურვილისამებრ)
        print('Text Extracted successfully from PDF !')    
    except ApiException as e:
        print("Exception while calling PdfApi: {0}".format(e))
        print("Code:" + str(e.code))
        print("Message:" + e.message)
PDF-ზე ტექსტის გადახედვა

სურათი 1: - PDF to Text გადახედვა.

თუ თქვენ გჭირდებათ ტექსტის ამოღება დოკუმენტის კონკრეტული გვერდიდან, გთხოვთ, სცადოთ GetPageText API, რომელიც არგუმენტად იღებს pageNumber-ს.

PDF ტექსტის კონვერტაცია cURL ბრძანების გამოყენებით

განიცადეთ PDF შინაარსის უწყვეტი ტრანსფორმაცია უბრალო ტექსტად Aspose.PDF Cloud და cURL ბრძანებების ძლიერი კომბინაციის გამოყენებით. ეს დინამიური ინტეგრაცია არა მხოლოდ ამარტივებს PDF-ის ტექსტის კონვერტაციას, არამედ გთავაზობთ რამდენიმე სარგებელს, რაც აუმჯობესებს თქვენი დოკუმენტის მართვისა და ტექსტის ამოღების გამოცდილებას.

გთხოვთ, გაითვალისწინოთ, რომ ამ მიდგომის წინაპირობაა JSON Web Token-ის (JWT) გენერირება თქვენი კლიენტის სერთიფიკატების საფუძველზე. ეს ნაბიჯი სავალდებულოა, რადგან ჩვენი API ხელმისაწვდომია მხოლოდ დარეგისტრირებულ მომხმარებლებს. გთხოვთ შეასრულოთ შემდეგი ბრძანება JWT ტოკენის გენერირებისთვის.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bbf94a2c-6d7e-4020-b4d2-b9809741374e&client_secret=1c9379bb7d701c26cc87e741a29987bb" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

მას შემდეგ რაც გვექნება JWT ჟეტონი, შეგვიძლია გამოვიყენოთ შემდეგი ბრძანება PDF ტექსტად გადასაყვანად მთელი ტექსტური შინაარსის ამოღებით. გამომავალი შენახულია როგორც ჩვეულებრივი ტექსტური ფაილი ადგილობრივ დისკზე.

curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/awesomeTable.pdf/text?splitRects=true&LLX=0&LLY=0&URX=800&URY=800" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>" \
-o Extracted.txt

ზემოთ მოცემულ მაგალითში გამოყენებული ნიმუშის ჩამოტვირთვა შესაძლებელია awesomeTable.pdf-დან.

დასკვნა

PDF დოკუმენტებიდან ტექსტის ამოღება კრიტიკული მოთხოვნაა ციფრული ინფორმაციით სავსე სამყაროში. ამ პროცესის შესწავლისას ჩვენ გამოვიკვლიეთ ორი დინამიური გზა: ერთი მრავალმხრივი Aspose.PDF Cloud SDK-ის მეშვეობით Python-ისთვის და მეორე Aspose.PDF Cloud და cURL ბრძანებების ძლიერი კომბინაციის მეშვეობით.

ორივე მიდგომა ახდენს უფსკრული სტატიკური PDF შინაარსსა და დინამიურ ტექსტს შორის, აძლიერებს ციფრული ინფორმაციის მართვის, ანალიზისა და გამოყენების გზას. მიუხედავად იმისა, აირჩევთ SDK-ის დახვეწილობას თუ cURL ბრძანებების სიმარტივეს, ორივე გზა იწვევს PDF-ის ტექსტის ეფექტურ კონვერტაციას, რაც საშუალებას მოგცემთ განბლოკოთ ტექსტური მონაცემების სიმდიდრე, რომელიც დამალულია PDF დოკუმენტებში.

დაკავშირებული სტატიები

ჩვენ ასევე გირჩევთ ეწვიოთ შემდეგ ბმულებს მეტის გასაგებად: