So extrahieren Sie Text aus gescannten PDFs in Java

Dieses kurze Tutorial enthält Details zum Extrahieren von Text aus gescannten PDFs in Java. Sie können diesen Prozess des Extrahierens von Text aus gescannten PDFs in Java konfigurieren, indem Sie die Erkennungsparameter festlegen. Die Option ist auch verfügbar, um je nach PDF-Qualität und anderen Anwendungsanforderungen zwischen Geschwindigkeit oder Genauigkeit zu wählen.

Schritte zum Extrahieren von Text aus gescanntem PDF in Java

  1. Konfigurieren Sie im Maven-Repository Aspose.OCR in Ihrem Projekt, um gescannten PDF-Text zu lesen
  2. AsposeOcrPdf-Objekt initialisieren, um Text aus der PDF-Datei zu lesen
  3. Instanziieren Sie das Klassenobjekt DocumentRecognitionSettings zum Festlegen der Erkennungsparameter
  4. Startseite und Anzahl der Seiten im PDF zum Lesen von Text festlegen
  5. Um die Erkennungsgeschwindigkeit zu erhöhen, setzen Sie das Flag “Bereiche erkennen” auf “false”.
  6. Rufen Sie die RecognizePdf-Funktion auf, um den gesamten Text gemäß der obigen Konfiguration zu lesen
  7. Durchlaufen Sie alle extrahierten Ergebnisse aus den PDF-Seiten und zeigen Sie sie auf der Konsole an

Während des Prozesses zum Scannen von Text aus PDF in Java wird ein Objekt von AsposeOCRPdf initiiert, das tatsächlich Funktionen zum Erkennen von Text aus dem PDF enthält. Es unterstützt die Konfiguration des Erkennungsprozesses wie die Startseitennummer, die Anzahl der zu lesenden PDF-Seiten und die Option zum Festlegen von Erkennungsbereichen zur Steuerung von Geschwindigkeit und Genauigkeit. Schließlich analysieren wir die von jeder Seite gescannte Ergebnissammlung und zeigen sie auf der Konsole an.

Code zum Konvertieren von gescanntem PDF in Text in Java

Dieser Code verwendet AsposeOCRPdf, um Text aus gescanntem PDF in Java zu erhalten. Das DocumentRecognitionSettings-Klassenobjekt enthält Optionen zum Festlegen der Seitenkonfiguration entweder mithilfe des Konstruktors, wie in diesem Beispielcode gezeigt, oder durch separates Festlegen von StartPage und PagesNumber. Sie können auch die Sprache, Korrekturen der Bildschräge und die Anzahl der Threads für die parallele Erkennung von Text aus der gescannten PDF-Datei festlegen.

In diesem Artikel haben wir gelernt, wie man Text aus gescannten PDFs in Java extrahiert, zusammen mit der Konfiguration des Erkennungsprozesses. Wenn Sie jedoch Text aus einem Bild extrahieren möchten, lesen Sie den Artikel zu So extrahieren Sie mit Java Text aus Bildern.

 Deutsch