Jak číst soubor PDF v Javě

Tento stručný návod vás provede jak číst soubor PDF v Javě. Obsahuje Java kód pro čtení souboru PDF, takže nejprve přečtete text z PDF v Javě do řetězce a poté načtete všechny obrázky ze souboru PDF a uložíte je na disk jako JPG. Pro čtení PDF v Javě není potřeba instalovat žádný nástroj třetí strany.

Kroky ke čtení souboru PDF v Javě

  1. Nakonfigurujte Aspose.PDF do svého projektu pomocí úložiště Maven pro čtení souboru PDF
  2. Načtěte ukázkový soubor PDF do objektu třídy Document
  3. Vytvořte instanci objektu třídy TextAbsorber, který dokáže přečíst celý text ze souboru PDF
  4. Přečtěte si text PDF z načteného souboru pomocí objektu třídy TextAbsorber
  5. Zobrazit celý text přečtený ze souboru PDF na konzole
  6. Pro přístup k obrázkům procházejte všechny stránky v souboru PDF
  7. Analyzujte všechny obrázky na každé stránce kolekce obrázků a uložte je na disk

V tomto rychlém tutoriálu krok za krokem nejprve načteme cílový soubor PDF a poté spustíme objekt třídy TextAbsorber, který je schopen prohledávat text na všech stránkách v PDF. Celý tento text je vrácen do řetězce, který lze zobrazit nebo zpracovat podle požadavku. Podobně můžeme analyzovat všechny obrázky ve sbírce obrázků a uložit je na disk v libovolném formátu, jak jsme jej uložili jako JPG v tomto tutoriálu.

Kód pro čtení PDF pomocí Java

V tomto ukázkovém kódu jsme použili třídu TextAbsorber a funkci getImages() z Page.getResources() ke čtení PDF pomocí Java. Objekt TextAbsorber se používá ke čtení textu funkcí přijetí v PDF PageCollection. Zatímco funkce getImages() kolekce getResources() vrací všechny obrázky na stránce.

Všimněte si, že tyto kroky ke čtení PDF v Javě lze provést v kterémkoli z operačních systémů, jako je Windows, Linux nebo macOS. Pokud se chcete dozvědět více o práci se soubory PDF, přečtěte si článek na jak číst záložky v PDF pomocí Java.

 Čeština