Tento rychlý tutoriál poskytuje podrobnosti o tom, jak extrahovat text z naskenovaného PDF v Javě. Tento proces extrahování textu z naskenovaného PDF v Javě můžete nakonfigurovat nastavením parametrů detekce. K dispozici je také možnost výběru mezi rychlostí nebo přesností v závislosti na kvalitě PDF a dalších požadavcích aplikace.
Kroky k extrahování textu z naskenovaného PDF v Javě
- Z úložiště Maven nakonfigurujte Aspose.OCR ve svém projektu tak, aby četl naskenovaný text PDF
- Inicializujte objekt AsposeOcrPdf pro čtení textu z PDF
- Vytvořte instanci objektu třídy DocumentRecognitionSettings pro nastavení parametrů rozpoznávání
- Nastavte úvodní stránku a počet stránek v PDF pro čtení textu
- Chcete-li zvýšit rychlost detekce, nastavte příznak detekovaných oblastí na hodnotu false
- Zavolejte funkci RecognizePdf pro přečtení celého textu podle výše uvedené konfigurace
- Iterujte všechny extrahované výsledky ze stránek PDF a zobrazte je na konzole
Během procesu skenování textu z PDF v Javě se spustí objekt AsposeOCRPdf, který ve skutečnosti obsahuje funkce pro rozpoznání textu z PDF. Podporuje konfiguraci procesu detekce, jako je číslo úvodní stránky, počet stránek PDF ke čtení a možnost nastavení oblastí detekce pro řízení rychlosti a přesnosti. Nakonec analyzujeme kolekci výsledků naskenovaných z každé stránky a zobrazíme je na konzole.
Kód pro převod naskenovaného PDF na text v Javě
Tento kód používá AsposeOCRPdf k získání textu z naskenovaného PDF v Javě. Objekt třídy DocumentRecognitionSettings obsahuje možnosti pro nastavení konfigurace stránek buď pomocí konstruktoru, jak je ukázáno v tomto ukázkovém kódu, nebo samostatným nastavením StartPage a PagesNumber. Můžete také nastavit jazyk, opravy zkosení obrazu a počet vláken pro paralelní detekci textu z naskenovaného PDF.
V tomto článku jsme se naučili, jak extrahovat text z naskenovaného PDF v Javě spolu s konfigurací procesu detekce. Pokud však chcete z obrázku extrahovat text, přečtěte si článek na jak extrahovat text z obrázku pomocí Java.