Estrarre allegati PDF

Il file PDF è composto da testo e grafica e può contenere interi file al suo interno come allegati. Ciò rende lo scambio di set di documenti più semplice e affidabile. Il riquadro Allegati fornisce un luogo centrale per visualizzare, inserire, eliminare ed esportare allegati. Si noti inoltre che se si sposta il file PDF in una nuova posizione, anche gli allegati al suo interno si spostano con esso. Gli allegati possono includere collegamenti da o verso il documento padre o ad altri allegati. Si prega di non confondere i commenti allegati con gli allegati di file.

In questo articolo, discuteremo i dettagli su come possiamo leggere le informazioni relative agli allegati nei documenti PDF e come possiamo scaricare gli allegati da PDF usando Python. Non è richiesto alcun download o installazione di software particolare ed eseguire tutte le operazioni richieste nel cloud.

API di elaborazione PDF

Aspose.PDF Cloud è la nostra API basata su REST che offre le capacità di creare, modificare e trasformare vari formati in PDF, nonché di rendere i file PDF in formati tra cui XLSX, PPTX, DOCX, EPUB, HTML, JPEG, ecc. e molto altro. Grazie all’architettura REST, l’API è accessibile su qualsiasi piattaforma. Pertanto, è possibile implementare le capacità di elaborazione PDF in applicazioni Desktop, Web, Mobile, Cloud e Ibride.

Python SDK per l’elaborazione PDF

Per facilitare ulteriormente i nostri clienti, abbiamo creato specifici SDK di programmazione in modo che tu possa ottenere tutte le capacità di elaborazione PDF nel linguaggio di tua scelta. Allo stesso modo, per facilitare gli sviluppatori Python, abbiamo creato un SDK di programmazione Python denominato Aspose.PDF Cloud SDK per Python che è un wrapper per Aspose.PDF Cloud API. Ora per iniziare, il primo passo è la sua installazione. L’SDK è disponibile per il download gratuito tramite il repository PIP e GitHub. Ora esegui il seguente comando sul terminale/prompt dei comandi per installare l’ultima versione dell’SDK sul sistema.

pip install asposepdfcloud

IDE PyCharm

Se utilizzi PyCharm IDE, puoi aggiungere direttamente l’SDK come dipendenza nel tuo progetto.

File ->Impostazioni ->Progetto ->Interprete Python ->asposepdfcloud

didascalia

Image 1:- PyCharm settings option.

Pacchetto Python Aspose.PDF

Immagine 2: Pacchetto Python Cloud Aspose.Pdf.

Account gratuito per la dashboard cloud

Dopo l’installazione, il passo successivo più importante è un abbonamento gratuito ai nostri servizi cloud tramite Aspose.Cloud dashboard. Lo scopo di questo abbonamento è consentire solo alle persone autorizzate di accedere ai nostri servizi di elaborazione file. Se hai un account GitHub o Google, registrati semplicemente o fai clic sul pulsante Crea un nuovo account e fornisci le informazioni richieste. Ora accedi alla dashboard utilizzando le credenziali ed espandi la sezione Applicazioni dalla dashboard e scorri verso il basso fino alla sezione Credenziali client per vedere i dettagli ID client e Segreto client.

Credenziali del cliente

Immagine 3: Credenziali del cliente nella dashboard di Aspose.Cloud.

Leggi le informazioni sugli allegati dal PDF

Per leggere le informazioni degli allegati nel documento PDF, seguire le istruzioni riportate di seguito.

  • Per prima cosa, dobbiamo creare un’istanza della classe ApiClient fornendo Client ID e Client Secret come argomenti.
  • In secondo luogo, creare un’istanza della classe PdfApi che accetti l’oggetto ApiClient come argomento di input.
  • Ora chiama il metodo getdocumentattachments(…) di PdfApi per recuperare i dettagli dell’allegato PDF.
def readAttachmentDetails():
    try:
        #Client credentials
        client_secret = "1c9379bb7d701c26cc87e741a29987bb"
        client_id = "bbf94a2c-6d7e-4020-b4d2-b9809741374e"

        #initialize PdfApi client instance using client credetials
        pdf_api_client = asposepdfcloud.api_client.ApiClient(client_secret, client_id)

        # crea un'istanza di PdfApi passando PdfApiClient come argomento
        pdf_api = PdfApi(pdf_api_client)

        #source image file
        input_file = 'PdfWithEmbeddedFiles.pdf'
        
        # chiama l'API per estrarre i dettagli dell'allegato
        response = pdf_api.get_document_attachments(name = input_file)
        print(response)
        # stampa messaggio nella console (facoltativo)
        print('PDF Attachment details successfully retrieved !')    
    except ApiException as e:
        print("Exception while calling PdfApi: {0}".format(e))
        print("Code:" + str(e.code))
        print("Message:" + e.message)

Per vostra informazione, il documento PDF di esempio utilizzato nell’esempio precedente può essere scaricato da PdfWithEmbeddedFiles.pdf.

Leggi le informazioni specifiche sull’allegato

L’API ci facilita anche la lettura delle informazioni di allegati particolari nel documento PDF. A questo scopo, prova a usare il metodo GetDocumentAttachmentByIndex. Di seguito sono riportati i dettagli del primo allegato recuperato.

{'attachment': {'check_sum': '33DCE2EE8BD095A3C4E2A67058104D35',
                'creation_date': '11/24/2008 02:02:36.000 PM',
                'description': None,
                'links': [{'href': '/PdfWithEmbeddedFiles.pdf/attachments/1',
                           'rel': 'self',
                           'title': None,
                           'type': None}],
                'mime_type': 'application/pdf',
                'modification_date': '05/03/2007 10:37:41.000 AM',
                'name': 'example1.pdf',
                'size': 10984},
 'code': 200,
 'status': 'OK'}

Scarica l’allegato specifico dal PDF

Per scaricare allegati specifici dal documento PDF, seguire le istruzioni specificate di seguito.

  • Per prima cosa, dobbiamo creare un’istanza della classe ApiClient fornendo Client ID e Client Secret come argomenti.
  • In secondo luogo, creare un’istanza della classe PdfApi che accetti l’oggetto ApiClient come argomento di input.
  • Ora chiama il metodo GetDownloadDocumentAttachmentByIndex(…) per scaricare l’allegato dal file PDF.
def downloadAttachment():
    try:
        #Client credentials
        client_secret = "1c9379bb7d701c26cc87e741a29987bb"
        client_id = "bbf94a2c-6d7e-4020-b4d2-b9809741374e"

        #initialize PdfApi client instance using client credetials
        pdf_api_client = asposepdfcloud.api_client.ApiClient(client_secret, client_id)

        # crea un'istanza di PdfApi passando PdfApiClient come argomento
        pdf_api = PdfApi(pdf_api_client)

        #source image file
        input_file = 'PdfWithEmbeddedFiles.pdf'
        
        # chiama l'API per scaricare il primo allegato dal file PDF
        response = pdf_api.get_download_document_attachment_by_index(name = input_file, attachment_index=1)
        print(response)
        # stampa messaggio nella console (facoltativo)
        print('PDF Attachment successfully downloaded !')    
    except ApiException as e:
        print("Exception while calling PdfApi: {0}".format(e))
        print("Code:" + str(e.code))
        print("Message:" + e.message)

Leggi le informazioni dell’allegato utilizzando il comando cURL

Le API REST sono facilmente accessibili tramite comandi cURL e possiamo usare una semplice applicazione terminale per eseguirle. Poiché Aspose.PDF Cloud è sviluppato secondo l’architettura REST, possiamo accedervi anche tramite comandi cURL. Tuttavia, come prerequisito, dobbiamo generare un JSON Web Token (JWT) basato sulle credenziali individuali del tuo client specificate sulla dashboard di Aspose.Cloud. È obbligatorio perché le nostre API sono accessibili solo agli utenti registrati. Esegui il seguente comando per generare il token JWT.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=bbf94a2c-6d7e-4020-b4d2-b9809741374e&client_secret=1c9379bb7d701c26cc87e741a29987bb" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Ora che abbiamo il token JWT, possiamo eseguire il seguente comando per recuperare informazioni su allegati specifici dai documenti PDF.

curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/PdfWithEmbeddedFiles.pdf/attachments/1" \
-H  "accept: application/json" \
-H  "authorization: Bearer <JWT Token>"

Scarica un allegato specifico usando il comando cURL

Eseguire il seguente comando per scaricare il secondo allegato del file PDF e salvarlo sul disco locale.

curl -v -X GET "https://api.aspose.cloud/v3.0/pdf/PdfWithEmbeddedFiles.pdf/attachments/2/download" \
-H  "accept: multipart/form-data" \
-H  "authorization: Bearer <JWT Token>" \
-o Attachment.txt

Conclusione

Questo articolo ha spiegato i dettagli e i passaggi su come possiamo leggere e scaricare allegati da documenti PDF. Abbiamo esplorato i passaggi utilizzando frammenti di codice Python e anche i comandi cURL. Oltre all’elaborazione degli allegati, l’API fornisce anche una pletora di funzionalità relative ad altri elementi dei file PDF e i loro dettagli possono essere trovati nella Guida per sviluppatori. Inoltre, il codice sorgente completo di Aspose.PDF Cloud SDK per Python è stato reso disponibile per il download su GitHub. In caso di problemi durante l’utilizzo dell’API o se hai ulteriori domande, non esitare a contattarci tramite il Forum di supporto prodotto gratuito.

Articoli correlati

Ti consigliamo inoltre di visitare i seguenti link per saperne di più: