Comment lire un fichier PDF en Java

Ce bref tutoriel vous guide sur comment lire un fichier PDF en Java. Il contient du code Java pour lire le fichier PDF de sorte que vous lisez d’abord le texte de PDF en Java dans une chaîne, puis récupérez toutes les images du fichier PDF pour les enregistrer sur le disque en tant que JPG. Il n’est pas nécessaire d’installer un outil tiers pour lire un PDF en Java.

Étapes pour lire un fichier PDF en Java

  1. Configurez Aspose.PDF dans votre projet en utilisant le référentiel Maven pour lire le fichier PDF
  2. Chargez l’exemple de fichier PDF dans l’objet de classe Document
  3. Instanciez l’objet de classe TextAbsorber qui peut lire le texte entier du fichier PDF
  4. Lire le texte PDF à partir du fichier chargé à l’aide de l’objet de classe TextAbsorber
  5. Afficher tout le texte lu depuis le fichier PDF sur la console
  6. Parcourir toutes les pages du fichier PDF pour accéder aux images
  7. Analysez toutes les images de chaque collection d’images de page et enregistrez-les sur le disque

Dans ce didacticiel rapide étape par étape, nous chargeons d’abord le fichier PDF cible, puis nous lançons l’objet de classe TextAbsorber qui est capable de rechercher du texte dans toutes les pages du PDF. Ce texte entier est renvoyé dans une chaîne qui peut être affichée ou traitée selon les besoins. De même, nous pouvons analyser toutes les images de la collection d’images et les enregistrer sur le disque dans n’importe quel format, car nous l’avons enregistré au format JPG dans ce didacticiel.

Code pour lire un PDF en utilisant Java

import com.aspose.pdf.License;
import com.aspose.pdf.Document;
import com.aspose.pdf.Page;
import com.aspose.pdf.TextAbsorber;
import com.aspose.pdf.XImage;
public class HowToReadPDFFileInJava {
public static void main(String[] args) throws Exception {//main() function for HowToReadPDFFileInJava
// Instantiate the license to remove trial version restrictions while reading the PDF file
License license = new License();
license.setLicense("Aspose.PDF.lic");
// Load the PDF file from which text and images are to be read
Document pdf = new Document("Input.pdf");
// 1. Read entire text from the PDF file
// Instantiate a TextAbsorber Class object to read Text from PDF file
TextAbsorber textAbsorberObject = new TextAbsorber();
// Call PageCollection.accept() method to let TextAbsorber find text in PDF Pages
pdf.getPages().accept(textAbsorberObject);
// Write the extracted text from the sample PDF to console
System.out.println(textAbsorberObject.getText());
// 2. Extract images from PDF file
int imageCount = 1;
// Iterate through all the PDF pages to access images collection and save them on the disc
for (Page pdfPage : pdf.getPages())
{
// Iterate through images collection in the PDF file
for (XImage image : pdfPage.getResources().getImages())
{
java.io.FileOutputStream outputImageFromPdfFile = new java.io.FileOutputStream(pdfPage.getNumber() + "-"+ imageCount+"-output.jpg");
// Save each image in the PDF file images collection to a JPG file
image.save(outputImageFromPdfFile);
outputImageFromPdfFile.close();
imageCount++;
}
// Reset image index
imageCount = 1;
}
}
}

Dans cet exemple de code, nous avons utilisé la classe TextAbsorber et la fonction getImages() de Page.getResources() pour lire le PDF en utilisant Java. L’objet TextAbsorber est utilisé pour lire le texte par la fonction d’acceptation dans la PageCollection PDF. Alors que la fonction getImages() de la collection getResources() renvoie toutes les images d’une page.

Notez que ces étapes pour lire un PDF en Java peuvent être effectuées dans n’importe quel système d’exploitation comme Windows, Linux ou macOS. Si vous souhaitez en savoir plus sur l’utilisation des fichiers PDF, consultez l’article sur comment lire les signets en PDF en utilisant Java.

 Français