So lesen Sie PDF-Dateien in Java

Dieses kurze Tutorial führt Sie durch Wie man PDF-Dateien in Java liest. Es enthält Java-Code zum Lesen der PDF-Datei, sodass Sie zuerst Text aus PDF in Java in eine Zeichenfolge lesen und dann alle Bilder aus der PDF-Datei abrufen, um sie auf der Disc als JPG. Es ist nicht erforderlich, ein Drittanbieter-Tool zu installieren, um PDF in Java zu lesen.

Schritte zum Lesen von PDF-Dateien in Java

  1. Konfigurieren Sie Aspose.PDF mithilfe des Maven-Repositorys in Ihrem Projekt, um die PDF-Datei zu lesen
  2. Laden Sie die Beispiel-PDF-Datei in das Klassenobjekt Document
  3. Instanziieren Sie das Klassenobjekt TextAbsorber, das den gesamten Text aus der PDF-Datei lesen kann
  4. Lesen Sie PDF-Text aus der geladenen Datei mit dem TextAbsorber-Klassenobjekt
  5. Zeigen Sie den gesamten aus der PDF-Datei gelesenen Text auf der Konsole an
  6. Durchlaufen Sie alle Seiten in der PDF-Datei, um auf die Bilder zuzugreifen
  7. Analysieren Sie alle Bilder auf jeder Seite der Bildersammlung und speichern Sie sie auf der Disc

In diesem kurzen Schritt-für-Schritt-Tutorial laden wir zuerst die Ziel-PDF-Datei und initiieren dann das TextAbsorber-Klassenobjekt, das in der Lage ist, Text auf allen Seiten in der PDF-Datei zu durchsuchen. Dieser gesamte Text wird in eine Zeichenfolge zurückgegeben, die gemäß den Anforderungen angezeigt oder verarbeitet werden kann. Ebenso können wir alle Bilder in der Bildersammlung parsen und sie in einem beliebigen Format auf der Disc speichern, wie wir es in diesem Tutorial als JPG gespeichert haben.

Code zum Lesen von PDF mit Java

import com.aspose.pdf.License;
import com.aspose.pdf.Document;
import com.aspose.pdf.Page;
import com.aspose.pdf.TextAbsorber;
import com.aspose.pdf.XImage;
public class HowToReadPDFFileInJava {
public static void main(String[] args) throws Exception {//main() function for HowToReadPDFFileInJava
// Instantiate the license to remove trial version restrictions while reading the PDF file
License license = new License();
license.setLicense("Aspose.PDF.lic");
// Load the PDF file from which text and images are to be read
Document pdf = new Document("Input.pdf");
// 1. Read entire text from the PDF file
// Instantiate a TextAbsorber Class object to read Text from PDF file
TextAbsorber textAbsorberObject = new TextAbsorber();
// Call PageCollection.accept() method to let TextAbsorber find text in PDF Pages
pdf.getPages().accept(textAbsorberObject);
// Write the extracted text from the sample PDF to console
System.out.println(textAbsorberObject.getText());
// 2. Extract images from PDF file
int imageCount = 1;
// Iterate through all the PDF pages to access images collection and save them on the disc
for (Page pdfPage : pdf.getPages())
{
// Iterate through images collection in the PDF file
for (XImage image : pdfPage.getResources().getImages())
{
java.io.FileOutputStream outputImageFromPdfFile = new java.io.FileOutputStream(pdfPage.getNumber() + "-"+ imageCount+"-output.jpg");
// Save each image in the PDF file images collection to a JPG file
image.save(outputImageFromPdfFile);
outputImageFromPdfFile.close();
imageCount++;
}
// Reset image index
imageCount = 1;
}
}
}

In diesem Beispielcode haben wir die Klasse TextAbsorber und die Funktion getImages() von Page.getResources() verwendet, um PDF mit Java zu lesen. Das TextAbsorber-Objekt wird zum Lesen von Text durch die Accept-Funktion in der PDF-PageCollection verwendet. Wohingegen die getImages()-Funktion der getResources()-Sammlung alle Bilder auf einer Seite zurückgibt.

Beachten Sie, dass diese Schritte zum Lesen von PDF in Java in jedem Betriebssystem wie Windows, Linux oder macOS durchgeführt werden können. Wenn Sie mehr über das Arbeiten mit PDF-Dateien erfahren möchten, lesen Sie den Artikel zu wie man Lesezeichen in PDF mit Java liest.

 Deutsch