Jak extrahovat text z naskenovaného PDF v Javě

Tento rychlý tutoriál poskytuje podrobnosti o tom, jak extrahovat text z naskenovaného PDF v Javě. Tento proces extrahování textu z naskenovaného PDF v Javě můžete nakonfigurovat nastavením parametrů detekce. K dispozici je také možnost výběru mezi rychlostí nebo přesností v závislosti na kvalitě PDF a dalších požadavcích aplikace.

Kroky k extrahování textu z naskenovaného PDF v Javě

  1. Z úložiště Maven nakonfigurujte Aspose.OCR ve svém projektu tak, aby četl naskenovaný text PDF
  2. Inicializujte objekt AsposeOcrPdf pro čtení textu z PDF
  3. Vytvořte instanci objektu třídy DocumentRecognitionSettings pro nastavení parametrů rozpoznávání
  4. Nastavte úvodní stránku a počet stránek v PDF pro čtení textu
  5. Chcete-li zvýšit rychlost detekce, nastavte příznak detekovaných oblastí na hodnotu false
  6. Zavolejte funkci RecognizePdf pro přečtení celého textu podle výše uvedené konfigurace
  7. Iterujte všechny extrahované výsledky ze stránek PDF a zobrazte je na konzole

Během procesu skenování textu z PDF v Javě se spustí objekt AsposeOCRPdf, který ve skutečnosti obsahuje funkce pro rozpoznání textu z PDF. Podporuje konfiguraci procesu detekce, jako je číslo úvodní stránky, počet stránek PDF ke čtení a možnost nastavení oblastí detekce pro řízení rychlosti a přesnosti. Nakonec analyzujeme kolekci výsledků naskenovaných z každé stránky a zobrazíme je na konzole.

Kód pro převod naskenovaného PDF na text v Javě

Tento kód používá AsposeOCRPdf k získání textu z naskenovaného PDF v Javě. Objekt třídy DocumentRecognitionSettings obsahuje možnosti pro nastavení konfigurace stránek buď pomocí konstruktoru, jak je ukázáno v tomto ukázkovém kódu, nebo samostatným nastavením StartPage a PagesNumber. Můžete také nastavit jazyk, opravy zkosení obrazu a počet vláken pro paralelní detekci textu z naskenovaného PDF.

V tomto článku jsme se naučili, jak extrahovat text z naskenovaného PDF v Javě spolu s konfigurací procesu detekce. Pokud však chcete z obrázku extrahovat text, přečtěte si článek na jak extrahovat text z obrázku pomocí Java.

 Čeština