Tento stručný návod vás provede jak číst soubor PDF v Javě. Obsahuje Java kód pro čtení souboru PDF, takže nejprve přečtete text z PDF v Javě do řetězce a poté načtete všechny obrázky ze souboru PDF a uložíte je na disk jako JPG. Pro čtení PDF v Javě není potřeba instalovat žádný nástroj třetí strany.
Kroky ke čtení souboru PDF v Javě
- Nakonfigurujte Aspose.PDF do svého projektu pomocí úložiště Maven pro čtení souboru PDF
- Načtěte ukázkový soubor PDF do objektu třídy Document
- Vytvořte instanci objektu třídy TextAbsorber, který dokáže přečíst celý text ze souboru PDF
- Přečtěte si text PDF z načteného souboru pomocí objektu třídy TextAbsorber
- Zobrazit celý text přečtený ze souboru PDF na konzole
- Pro přístup k obrázkům procházejte všechny stránky v souboru PDF
- Analyzujte všechny obrázky na každé stránce kolekce obrázků a uložte je na disk
V tomto rychlém tutoriálu krok za krokem nejprve načteme cílový soubor PDF a poté spustíme objekt třídy TextAbsorber, který je schopen prohledávat text na všech stránkách v PDF. Celý tento text je vrácen do řetězce, který lze zobrazit nebo zpracovat podle požadavku. Podobně můžeme analyzovat všechny obrázky ve sbírce obrázků a uložit je na disk v libovolném formátu, jak jsme jej uložili jako JPG v tomto tutoriálu.
Kód pro čtení PDF pomocí Java
V tomto ukázkovém kódu jsme použili třídu TextAbsorber a funkci getImages() z Page.getResources() ke čtení PDF pomocí Java. Objekt TextAbsorber se používá ke čtení textu funkcí přijetí v PDF PageCollection. Zatímco funkce getImages() kolekce getResources() vrací všechny obrázky na stránce.
Všimněte si, že tyto kroky ke čtení PDF v Javě lze provést v kterémkoli z operačních systémů, jako je Windows, Linux nebo macOS. Pokud se chcete dozvědět více o práci se soubory PDF, přečtěte si článek na jak číst záložky v PDF pomocí Java.