Tento rychlý tutoriál poskytuje podrobnosti o tom, jak extrahovat text z naskenovaného PDF v Javě. Tento proces extrahování textu z naskenovaného PDF v Javě můžete nakonfigurovat nastavením parametrů detekce. K dispozici je také možnost výběru mezi rychlostí nebo přesností v závislosti na kvalitě PDF a dalších požadavcích aplikace.
Kroky k extrahování textu z naskenovaného PDF v Javě
- Z úložiště Maven nakonfigurujte Aspose.OCR ve svém projektu tak, aby četl naskenovaný text PDF
- Inicializujte objekt AsposeOcrPdf pro čtení textu z PDF
- Vytvořte instanci objektu třídy DocumentRecognitionSettings pro nastavení parametrů rozpoznávání
- Nastavte úvodní stránku a počet stránek v PDF pro čtení textu
- Chcete-li zvýšit rychlost detekce, nastavte příznak detekovaných oblastí na hodnotu false
- Zavolejte funkci RecognizePdf pro přečtení celého textu podle výše uvedené konfigurace
- Iterujte všechny extrahované výsledky ze stránek PDF a zobrazte je na konzole
Během procesu skenování textu z PDF v Javě se spustí objekt AsposeOCRPdf, který ve skutečnosti obsahuje funkce pro rozpoznání textu z PDF. Podporuje konfiguraci procesu detekce, jako je číslo úvodní stránky, počet stránek PDF ke čtení a možnost nastavení oblastí detekce pro řízení rychlosti a přesnosti. Nakonec analyzujeme kolekci výsledků naskenovaných z každé stránky a zobrazíme je na konzole.
Kód pro převod naskenovaného PDF na text v Javě
import java.util.ArrayList; | |
import com.aspose.ocr.DocumentRecognitionSettings; | |
import com.aspose.ocr.RecognitionResult; | |
import com.aspose.ocr.pdf.AsposeOCRPdf; | |
public class ExtractTextFromScannedPdfInJava { | |
public static void main(String[] args) {//main function for ExtractTextFromScannedPdfInJava class | |
// Instantiate an AsposeOcrPdf object | |
AsposeOCRPdf ocrPdfToReadText = new AsposeOCRPdf(); | |
// Initialize DocumentRecognitionSettings class object for configuring recognition settings | |
DocumentRecognitionSettings docRecognitionConfig = new DocumentRecognitionSettings(1,3); | |
// Set detect areas to false to improve speed | |
docRecognitionConfig.setDetectAreas(false); | |
// Using the recognition settings, fetch text from the range of pages set in the constructor above | |
ArrayList<RecognitionResult> fetchedTextResults = ocrPdfToReadText.RecognizePdf("InputSampleFile.pdf", docRecognitionConfig); | |
// Iterate through all the text fetched from each page | |
int PageCounter = 1; | |
for(RecognitionResult page : fetchedTextResults) | |
{ | |
System.out.println("Page No: " + PageCounter + " Fetched Text:" + page.recognitionText); | |
PageCounter++; | |
} | |
} | |
} |
Tento kód používá AsposeOCRPdf k získání textu z naskenovaného PDF v Javě. Objekt třídy DocumentRecognitionSettings obsahuje možnosti pro nastavení konfigurace stránek buď pomocí konstruktoru, jak je ukázáno v tomto ukázkovém kódu, nebo samostatným nastavením StartPage a PagesNumber. Můžete také nastavit jazyk, opravy zkosení obrazu a počet vláken pro paralelní detekci textu z naskenovaného PDF.
V tomto článku jsme se naučili, jak extrahovat text z naskenovaného PDF v Javě spolu s konfigurací procesu detekce. Pokud však chcete z obrázku extrahovat text, přečtěte si článek na jak extrahovat text z obrázku pomocí Java.