Eine schnelle und einfache Methode zum Extrahieren von Seiten aus Word Dokumenten mithilfe des Python SDK.

Word Dokument teilen

Word Dokument aufteilen | Seiten aus Word Dokument als separate Datei extrahieren

Im Bereich der Dokumentenverwaltung besteht häufig die Notwendigkeit, bestimmte Abschnitte aus einem Word Dokument aufzuteilen, zu trennen oder zu extrahieren. Egal, ob Sie mit umfangreichen Forschungsarbeiten, umfassenden Berichten oder langen Manuskripten arbeiten, die Aufgabe, sie in überschaubarere Teile zu zerlegen, kann sowohl zeitaufwändig als auch herausfordernd sein. In diesem Artikel untersuchen wir die Schritte zum Erreichen dieser Anforderung mit Python Cloud SDK, sodass Sie Ihre Dokumentenverwaltungsaufgaben rationalisieren und effizienter arbeiten können.

Textverarbeitungs-API

Aspose.Words Cloud ist unsere spezielle Lösung für die Verarbeitung von MS Word (DOCX, DOC, DOT, RTF, DOCM) oder OpenDocument (ODT, OTT).Zur Verarbeitung von Word Dokumenten ist keine Drittanbietersoftware oder MS Office-Automatisierung erforderlich. Rufen Sie einfach die REST-APIs auf, um Ihre Anforderungen zu erfüllen. Da die APIs REST-basiert sind, können Sie auf jeder Plattform darauf zugreifen, einschließlich Desktop, Web, mobile App usw. Im Rahmen dieses Artikels werden wir nun die Einzelheiten besprechen, wie Seiten in einer Word-Datei als einzelnes Word Dokument aufgeteilt werden. Die API bietet auch die Flexibilität, den Aufteilungsvorgang anzupassen, d. h. jede Seite, ungerade und gerade, nach Seitenzahl, nach Seitenbereich aufzuteilen.

Um unseren Kunden die Arbeit noch einfacher zu machen, haben wir Aspose.Words Cloud SDK für Python entwickelt, ein Wrapper um die Cloud API, damit Sie alle Vorteile der Word Dokumentenverarbeitung in Ihrer bevorzugten Programmiersprache nutzen können. Bevor Sie fortfahren, müssen Sie zunächst das SDK auf dem lokalen System installieren. Es steht zum Download unter PIP und GitHub zur Verfügung. Führen Sie den folgenden Befehl im Befehlszeilenterminal aus, um das SDK zu installieren:

pip install aspose-words-cloud

Falls Sie Visual Studio als IDE verwenden, können Sie den SDK-Verweis direkt zum Projekt hinzufügen.

Klicken Sie auf die Option Ansicht ->Andere Fenster ->Python-Umgebungen. Wie unten gezeigt.

Menüoption „Python-Umgebung“.

Bild 1: – Menüoption „Python-Umgebung“.

Geben Sie im Fenster „Python-Umgebungen“ unter dem Feld „Pakete“ „aspose-word-cloud“ ein. Klicken Sie dann auf den Link „aspose-word-cloud (21.11.0) installieren“. Die Versionsnummer kann sich je nach der neuesten/aktuellen Release-Version ändern. Siehe das Bild unten.

Aspose-Words-Cloud-Python-Paket

Bild 2: - Python-Paket „aspose-words-cloud“.

Seiten in Word Dokumenten mit Python aufteilen

Befolgen Sie die nachstehenden Anweisungen, um alle Seiten in einem Word Dokument aufzuteilen, das bereits im Cloud-Speicher verfügbar ist.

  • Zuerst müssen wir ein WordsApi Objekt initialisieren und dabei Client-ID und Client Secret als Argumente übergeben.
  • Geben Sie zweitens den Namen der Word-Eingabedatei, das resultierende Ausgabeformat, den Namen der resultierenden Datei und den Parameter zum ZIP-Archivieren der Ausgabe an.
  • Laden Sie das eingegebene Word Dokument mithilfe des UploadFileRequest Objekts in den Cloud-Speicher hoch.
  • Erstellen Sie nun eine Instanz von SplitDocumentRequest und übergeben Sie dabei die im zweiten Schritt definierten Details.
  • Rufen Sie abschließend die Methode splitdocument(…) der Klasse WordsApi auf, um Word Dokumente aufzuteilen. Die resultierenden Dateien werden im zugeordneten Cloud-Speicher gespeichert.
try:
        # Erstellen Sie eine Instanz von WordsApi
        words_api = WordsApi("88d1cda8-b12c-4a80-b1ad-c85ac483c5c5","406b404b2df649611e508bbcfcd2a77f")

        # Name des eingegebenen Word Dokuments
        inputFileName = 'source.doc'
        # resultierendes Dateiformat
        resultantFormat = 'DOCX'
        # Name des resultierenden Dokuments nach der Operation. Wenn dieser Parameter weggelassen wird
        # Die resultierende Datei wird dann unter dem Namen des Eingabedokuments gespeichert
        resultantFile = 'Split-File'
        # Das Flag gibt an, ob die Ausgabe komprimiert werden soll.
        zipOutput = 'false'

        # Laden Sie das Word-Quelldokument in den Cloud-Speicher hoch
        words_api.upload_file(asposewordscloud.models.requests.UploadFileRequest(open('C:\\Users\\Downloads\\'+inputFileName, 'rb'), "", None))

        # Erstellen Sie ein Objekt zum Aufteilen des Dokuments
        request = asposewordscloud.models.requests.SplitDocumentRequest(inputFileName, resultantFormat, None, None, None,
                                                                                    None, resultantFile,None, None, zipOutput, None)
        # Word-Split-Vorgang starten
        result = words_api.split_document(request)
        
        # Nachricht in der Konsole drucken (optional)
        print('Document Split process completed successfully !')    
    except ApiException as e:
        print("Exception while calling WordsApi: {0}".format(e))
Vorschau des Dokumentaufteilungsvorgangs

Bild 3: Vorschau des Dokumentaufteilungsvorgangs.

Dokument basierend auf ausgewählten Seiten aufteilen

In diesem Abschnitt besprechen wir im Detail, wie man ein Dokument basierend auf ausgewählten Seiten aufteilt und die Ausgabe als ZIP-Archiv speichert. Der Codeausschnitt ist fast derselbe wie oben, außer dass wir die Werte „Seite von“, „Seite bis“ und „True“ für die zu archivierende Ausgabe angeben müssen.

try:
        # Erstellen Sie eine Instanz von WordsApi
        words_api = WordsApi("88d1cda8-b12c-4a80-b1ad-c85ac483c5c5","406b404b2df649611e508bbcfcd2a77f")

        # Name des eingegebenen Word Dokuments
        inputFileName = 'source.doc'
        # resultierendes Dateiformat
        resultantFormat = 'DOCX'
        # Name des Ergebnisdokuments nach der Operation. Wenn dieser Parameter weggelassen wird
        # Die resultierende Datei wird dann unter dem Namen des Eingabedokuments gespeichert
        resultantFile = 'SplitOutput'
        # Die Markierung zeigt an, dass die Ausgabe im ZIP-Archiv erfolgen soll.
        zipOutput = 'false'

        # Laden Sie das Word-Quelldokument in den Cloud-Speicher hoch
        words_api.upload_file(asposewordscloud.models.requests.UploadFileRequest(open('C:\\Users\\Downloads\\'+inputFileName, 'rb'), "", None))

        # Erstellen Sie ein Objekt zum Aufteilen des Dokuments
        request = asposewordscloud.models.requests.SplitDocumentRequest(inputFileName, resultantFormat, None, None, None,
                                                                                    None, resultantFile,pageFrom, pageTo, zipOutput, None)
        # Word-Split-Vorgang starten
        result = words_api.split_document(request)
        
        # Nachricht in der Konsole drucken (optional)
        print('Document Split process completed successfully !')    
    except ApiException as e:
        print("Exception while calling WordsApi: {0}".format(e))
Dokumentaufteilungsausgabe

Bild 4: Vorschau des Dokumentaufteilungsvorgangs für ausgewählte Seiten.

Extrahieren Sie Seiten aus einem Word Dokument mithilfe von cURL-Befehlen

Wie bei anderen REST-APIs kann auch auf Aspose.Words Cloud über cURL-Befehle im Befehlszeilenterminal zugegriffen werden. Bevor wir jedoch fortfahren, müssen wir zunächst ein JWT-Zugriffstoken basierend auf den Client-Anmeldeinformationen generieren.

curl -v "https://api.aspose.cloud/connect/token" \
-X POST \
-d "grant_type=client_credentials&client_id=88d1cda8-b12c-4a80-b1ad-c85ac483c5c5&client_secret=406b404b2df649611e508bbcfcd2a77f" \
-H "Content-Type: application/x-www-form-urlencoded" \
-H "Accept: application/json"

Sobald das Token generiert wurde, führen Sie bitte den folgenden Befehl aus, um Seiten aus dem Word Dokument zu extrahieren und die Ausgabe im Cloud-Speicher zu speichern.

curl -v -X PUT "https://api.aspose.cloud/v4.0/words/source.doc/split?format=DOCX&destFileName=Split-File&from=2&to=4&zipOutput=false" \
-H  "accept: application/json" \
-H  "Authorization: Bearer <JWT Token>"

Abschluss

In diesem Artikel haben wir die Möglichkeit untersucht, einen Dokumentsplitter zu erstellen, der Word Dokumente mithilfe des Python SDK in einzelne Seitendateien aufteilen kann. Darüber hinaus können Sie je nach Bedarf das Python SDK verwenden oder Seiten mithilfe von cURL-Befehlen aus Word Dokumenten extrahieren. Bitte beachten Sie, dass wir an kollektives Wachstum und Zusammenarbeit glauben. Daher werden unsere SDKs gemäß der MIT-Lizenz entwickelt und ihr vollständiger Quellcode steht zum Download über Github zur Verfügung. Bei Bedarf können Sie den Code herunterladen und nach Ihren Anforderungen ändern. Falls Sie auf Probleme stoßen oder weitere Fragen haben, können Sie uns gerne über das Kostenlose Produktsupportforum kontaktieren.

Verwandte Artikel

Wir empfehlen Ihnen, die folgenden Links zu besuchen, um mehr zu erfahren über: