Tento stručný návod vás provede jak číst soubor PDF v Javě. Obsahuje Java kód pro čtení souboru PDF, takže nejprve přečtete text z PDF v Javě do řetězce a poté načtete všechny obrázky ze souboru PDF a uložíte je na disk jako JPG. Pro čtení PDF v Javě není potřeba instalovat žádný nástroj třetí strany.
Kroky ke čtení souboru PDF v Javě
- Nakonfigurujte Aspose.PDF do svého projektu pomocí úložiště Maven pro čtení souboru PDF
- Načtěte ukázkový soubor PDF do objektu třídy Document
- Vytvořte instanci objektu třídy TextAbsorber, který dokáže přečíst celý text ze souboru PDF
- Přečtěte si text PDF z načteného souboru pomocí objektu třídy TextAbsorber
- Zobrazit celý text přečtený ze souboru PDF na konzole
- Pro přístup k obrázkům procházejte všechny stránky v souboru PDF
- Analyzujte všechny obrázky na každé stránce kolekce obrázků a uložte je na disk
V tomto rychlém tutoriálu krok za krokem nejprve načteme cílový soubor PDF a poté spustíme objekt třídy TextAbsorber, který je schopen prohledávat text na všech stránkách v PDF. Celý tento text je vrácen do řetězce, který lze zobrazit nebo zpracovat podle požadavku. Podobně můžeme analyzovat všechny obrázky ve sbírce obrázků a uložit je na disk v libovolném formátu, jak jsme jej uložili jako JPG v tomto tutoriálu.
Kód pro čtení PDF pomocí Java
import com.aspose.pdf.License; | |
import com.aspose.pdf.Document; | |
import com.aspose.pdf.Page; | |
import com.aspose.pdf.TextAbsorber; | |
import com.aspose.pdf.XImage; | |
public class HowToReadPDFFileInJava { | |
public static void main(String[] args) throws Exception {//main() function for HowToReadPDFFileInJava | |
// Instantiate the license to remove trial version restrictions while reading the PDF file | |
License license = new License(); | |
license.setLicense("Aspose.PDF.lic"); | |
// Load the PDF file from which text and images are to be read | |
Document pdf = new Document("Input.pdf"); | |
// 1. Read entire text from the PDF file | |
// Instantiate a TextAbsorber Class object to read Text from PDF file | |
TextAbsorber textAbsorberObject = new TextAbsorber(); | |
// Call PageCollection.accept() method to let TextAbsorber find text in PDF Pages | |
pdf.getPages().accept(textAbsorberObject); | |
// Write the extracted text from the sample PDF to console | |
System.out.println(textAbsorberObject.getText()); | |
// 2. Extract images from PDF file | |
int imageCount = 1; | |
// Iterate through all the PDF pages to access images collection and save them on the disc | |
for (Page pdfPage : pdf.getPages()) | |
{ | |
// Iterate through images collection in the PDF file | |
for (XImage image : pdfPage.getResources().getImages()) | |
{ | |
java.io.FileOutputStream outputImageFromPdfFile = new java.io.FileOutputStream(pdfPage.getNumber() + "-"+ imageCount+"-output.jpg"); | |
// Save each image in the PDF file images collection to a JPG file | |
image.save(outputImageFromPdfFile); | |
outputImageFromPdfFile.close(); | |
imageCount++; | |
} | |
// Reset image index | |
imageCount = 1; | |
} | |
} | |
} |
V tomto ukázkovém kódu jsme použili třídu TextAbsorber a funkci getImages() z Page.getResources() ke čtení PDF pomocí Java. Objekt TextAbsorber se používá ke čtení textu funkcí přijetí v PDF PageCollection. Zatímco funkce getImages() kolekce getResources() vrací všechny obrázky na stránce.
Všimněte si, že tyto kroky ke čtení PDF v Javě lze provést v kterémkoli z operačních systémů, jako je Windows, Linux nebo macOS. Pokud se chcete dozvědět více o práci se soubory PDF, přečtěte si článek na jak číst záložky v PDF pomocí Java.