V tomto krátkém článku s návody se dozvíte, jak extrahovat odkazy z PDF v Javě. Obsahuje nastavení IDE, seznam kroků a ukázkový kód pro extrahování hypertextových odkazů z PDF v Javě. Naučíte se načítat anotace typu odkazu a transformovat je na URIAction pro načtení URI.
Kroky k extrahování URL z PDF v Javě
- Nastavte IDE tak, aby k extrahování odkazů používalo Aspose.PDF for Java
- Načtěte zdrojové PDF file, projděte všechny stránky a vytvořte pro stránku selektor anotací
- Extrahujte všechny anotace ze stránky a uložte je do kolekce Selected
- Projděte všechny anotace a přetypujte každou anotaci do GoToURIAction
- Vyvoláním metody getURI() získáte přístup k odkazu a zobrazíte jej na konzole
Tato příručka ukazuje, jak extrahovat všechny odkazy z PDF v Javě. Načtěte zdrojový soubor PDF, otevřete cílové stránky a pro každou stránku vytvořte selektor anotací. Zavolejte metodu accept() pomocí definovaného selektoru, načtěte seznam anotací odkazů a načtěte URI jeho přetypováním do třídy GoTOURIAction.
Kód pro extrahování hypertextového odkazu z PDF v Javě
Výše uvedený kód demonstroval PDF link extractor v Javě. Stránku můžete přeskočit nebo vybrat tak, že analyzujete její obsah pomocí objektu třídy Page při iterování stránkami v PDF. Metoda getAction() se používá k načtení akce URIA, která obsahuje URI odkazu.
V tomto článku jsme se naučili proces načítání hypertextových odkazů z PDF. Chcete-li vytvořit hypertextové odkazy v PDF, přečtěte si článek na jak vytvořit hypertextový odkaz v PDF pomocí Java.