Diese kurze Anleitung erklärt wie man PDF mit Python in Text umwandelt. Es behandelt Details zur Systemkonfiguration und einen schrittweisen Prozess zusammen mit einem Beispielcode zur Durchführung einer PDF-zu-Text-Python-basierten Konvertierung. Darüber hinaus können Sie den extrahierten Text gemäß Ihren Anforderungen in die Datei oder auf die Konsole schreiben.
Schritte zum Konvertieren von PDF in Text in Python
- Konfigurieren Sie das System, indem Sie die Bibliothek Aspose.PDF für Python über .NET installieren
- Laden Sie die PDF-Quelldatei mit der Klasse Document, um sie in eine Textdatei zu konvertieren
- Erstellen Sie ein Objekt der Klasse TextAbsorber, um Text mit der Methode Page.Accept() abzurufen
- Erstellen Sie eine Textdatei und schreiben Sie die ausgegebene Textzeichenfolge in die Datei
Diese Schritte fassen zusammen, wie die Konvertierung von Python PDF in TXT mit ein paar API-Aufrufen durchgeführt werden kann. Laden Sie im ersten Schritt die PDF-Eingabedatei und initialisieren Sie ein Objekt von TextAbsorber, mit dem Text von den Seiten abgerufen werden kann. Dann müssen Sie den extrahierten Text abrufen und in eine TXT-Datei schreiben, während Sie den Dateipfad und -namen angeben.
Code zum Konvertieren von PDF in Text in Python
Dieses Code-Snippet zeigt, wie man einen PDF-zu-Text-Konverter mit Python erstellt. Es lädt das PDF-Quelldokument mithilfe der Document-Klasse. Anschließend können Sie mit der Accept-Methode Text von allen Seiten der PDF-Datei holen oder durch Angabe der Seitenzahl den Textstring von einer bestimmten Seite lesen. Schreiben Sie abschließend die Textzeichenfolge in eine Datei und exportieren Sie die Textdatei auf die Festplatte.
In diesem Artikel haben wir gelernt, wie Sie mit Ihren Anwendungen Python PDF to Text rendern können. Wenn Sie jedoch die Konvertierung von PDF in Word lernen möchten, lesen Sie das Tutorial auf wie man PDF mit Python in Word konvertiert.