Jak převést PDF na text v Javě

Tento krátký tutoriál poskytuje podrobnosti o tom, jak převést PDF na text v Javě načtením vstupního PDF dokumentu a jeho uložením do formátu Text. Kromě toho lze pomocí Java PDF to Text converter upravit, zda chcete, aby byl výstup textu s formátováním nebo bez formátování ve srovnání se zdrojovým souborem PDF.

Kroky k převodu PDF na text v Javě

  1. Nakonfigurujte svou aplikaci přidáním odkazu na Aspose.PDF z úložiště Maven pro převod PDF na textový soubor
  2. Načtěte vstupní soubor PDF s objektem třídy Document pro převod PDF na textový soubor
  3. Vytvořte objekt třídy TextAbsorber pro nastavení možností extrakce textu
  4. Zapište extrahovaný text do textového souboru

Výše uvedené kroky upřesňují proces vývoje aplikace pro převod PDF na text Java. V prvním kroku se načte vstupní dokument PDF pomocí instance třídy Dokument a poté vyberte, zda chcete text s formátováním nebo ne. Nakonec můžete textový řetězec použít k zápisu do souboru nebo jej dále zpracovávat podle vašich požadavků.

Kód pro převod PDF na text v Javě

Tento ukázkový kód ukazuje, že pomocí Java převést PDF na text s plnou kontrolou pomocí různých možností, jako je třída TextAbsorber, která má více konstruktorů, kde můžete použít TextSearchOptions, které poskytují možnost převést stínovaný text ve zdrojovém PDF jako samostatný text. Podobně můžete nastavit příznaky pro hledání textu pouze v rámci stránky nebo nastavit obdélník pro hledání textu pouze v určené oblasti na všech stránkách.

Zde jsme se naučili, jak převést PDF na text v Javě spolu s fragmentem kódu. Pokud se chcete naučit proces převodu PDF do Wordu, přečtěte si článek na jak převést PDF do Wordu v Javě.

 Čeština