Scannte PDF in editierbare PDF mit Java konvertieren

Dieses kurze Tutorial führt Sie darüber, wie Sie gescannte PDF in ein editierbares PDF mit Java konvertieren. Es enthält Details zur Konfiguration der IDE, eine Schritt‑für‑Schritt‑Liste und Beispielcode, um gescannte PDFs in durchsuchbare PDFs mit Java zu konvertieren. Sie erhalten Details, um den Vorgang des Scannens von Bildern und der Umwandlung des Inhalts in lesbaren Text anzupassen.

Schritte, um PDF mit Java lesbar zu machen

  1. Setzen Sie die IDE so, dass sie Aspose.Total for Java verwendet, um ein gescanntes PDF in ein durchsuchbares PDF zu verwandeln.
  2. Instanziieren Sie die jeweiligen Produktlizenzen, um Wasserzeichen in der Ausgabe zu vermeiden.
  3. Erstellen Sie eine Instanz der Erkennungs‑Engine mithilfe der AsposeOCR‑Klasse
  4. Erstelle die Eingabeinstanz mit der OcrInput‑Klasse und lade das gescannte Quell‑PDF in sie.
  5. Erstelle die RecognitionSettings Instanz, um Parameter für die Anpassung während des Bildscannens festzulegen.
  6. Rufen Sie die Methode AsposeOCR auf.Rufen Sie Recognize() auf, um Daten aus dem gescannten PDF abzurufen und in einem temporären PDF zu speichern.
  7. Laden Sie das Zwischen‑PDF in das Document Klassenobjekt von Aspose.PDF und setzen Sie die Metadaten darin.
  8. Speichern Sie die endgültige PDF-Datei auf der Festplatte mit durchsuchbarem Text und Metadaten

Diese Schritte beschreiben, wie man PDF‑Bild in PDF‑Text mit Java konvertiert. Erstellen Sie das Erkennungs‑Engine‑Objekt, bereiten Sie die Eingabedatei vor, indem Sie die gescannte PDF‑Datei dem OcrInput‑Objekt hinzufügen, definieren Sie die Parameter im RecognitionSettings‑Objekt, rufen Sie die Recognize()-Methode auf, um Daten zu scannen und die Ergebnisse in einer Zwischen‑PDF‑Datei zu speichern. Laden Sie schließlich die Zwischen‑PDF‑Datei mit Aspose herunter.PDF.Dokumentobjekt und fügen Sie Metadaten hinzu oder formatieren Sie es weiter, bevor Sie die endgültige PDF‑Datei speichern.

Code zum Konvertieren von PDF-Bildern in Text mit Java

Dieser Code demonstriert, wie man PDF mit Java in ein durchsuchbares PDF konvertiert. Sie können beim Scannen des PDFs eine bestimmte Erkennungssprache festlegen, ein Flag setzen, um die Sprache automatisch zu erkennen, die Erkennung auf bestimmte Zeichen beschränken oder Zeichen auf die schwarze Liste setzen, die die OCR ignorieren soll. Optionen stehen ebenfalls zur Verfügung, um bei Bedarf die Erkennungsstrategie für den Quellbereich/-layout des Dokuments auszuwählen.

Dieser Artikel hat uns den Prozess erklärt, ein PDF in ein auswählbares Text‑PDF zu konvertieren. Um Daten aus einem PDF‑Formular nach Excel zu exportieren, siehe den Artikel Daten aus einem PDF‑Formular nach Excel mit Java exportieren.

 Deutsch