Dieses kurze Tutorial zeigt Ihnen wie man PDF-Inhalte in Python liest. Es stellt alle Ressourcen, notwendigen Klassen und Methoden vor, die in der Anwendung verwendet werden sollen. Es enthält auch einen ausführbaren Beispielcode zum Lesen von PDFs mit Python mit Hilfe von nur sehr wenigen Codezeilen, ohne ein anderes Tool von Drittanbietern zu verwenden.
Schritte zum Lesen von PDF mit Python
- Setzen Sie die IDE auf Verwenden Sie Aspose.PDF für Python über .NET, um PDF-Text zu lesen
- Laden Sie die PDF-Quelldatei mit dem Objekt Document, dessen Daten gelesen werden sollen
- Instanziieren Sie ein TextAbsorber-Objekt, um Text aus der PDF-Datei zu extrahieren
- Rufen Sie die Methode accept() auf, um den gesamten Text in der geladenen PDF-Datei zu lesen
- Zeigen Sie den extrahierten Text mithilfe der Text-Eigenschaft des TextAbsorber-Objekts an
Diese Schritte fassen den Prozess zum Lesen einer PDF-Datei in Python zusammen, indem die Document-Klasse zum Laden der PDF-Datei, das TextAbsorber-Klassenobjekt zum Abrufen von Text aus der PDF-Datei und die Accept()-Methode eingeführt werden, die tatsächlich die Texteigenschaft der TextAbsorber-Objekt. Sobald die Methode accept() aufgerufen wurde, können die Zeichenfolgendaten in der Eigenschaft text gedruckt oder für eine weitere Verarbeitung analysiert werden.
Code zum Lesen von PDF-Dateien in Python
Das obige Codesegment zeigt den Prozess zum Extrahieren von Daten aus einer PDF-Datei mit Python. Die TextAbsorber-Klasse unterstützt den TextFormattingMode, um Text im reinen, unformatierten, reduzierten oder speichersparenden Modus zu extrahieren. Darüber hinaus gibt die Klasse TextAbsorber beim Abrufen der Daten aus der PDF-Datei eine Fehlerliste zurück und unterstützt die Definition eines Rechtecks, innerhalb dessen Text von der PDF-Seite abgerufen wird.
Dieser Artikel hat uns gelehrt, ein PDF in Python zu lesen. Wenn Sie mehr über den Vorgang zum Lesen von Lesezeichen aus einer PDF-Datei erfahren möchten, lesen Sie den Artikel zu wie man Lesezeichen in Pdf mit Python liest.