Jak extrahovat text z naskenovaného PDF v Javě

Tento rychlý tutoriál poskytuje podrobnosti o tom, jak extrahovat text z naskenovaného PDF v Javě. Tento proces extrahování textu z naskenovaného PDF v Javě můžete nakonfigurovat nastavením parametrů detekce. K dispozici je také možnost výběru mezi rychlostí nebo přesností v závislosti na kvalitě PDF a dalších požadavcích aplikace.

Kroky k extrahování textu z naskenovaného PDF v Javě

  1. Z úložiště Maven nakonfigurujte Aspose.OCR ve svém projektu tak, aby četl naskenovaný text PDF
  2. Inicializujte objekt AsposeOcrPdf pro čtení textu z PDF
  3. Vytvořte instanci objektu třídy DocumentRecognitionSettings pro nastavení parametrů rozpoznávání
  4. Nastavte úvodní stránku a počet stránek v PDF pro čtení textu
  5. Chcete-li zvýšit rychlost detekce, nastavte příznak detekovaných oblastí na hodnotu false
  6. Zavolejte funkci RecognizePdf pro přečtení celého textu podle výše uvedené konfigurace
  7. Iterujte všechny extrahované výsledky ze stránek PDF a zobrazte je na konzole

Během procesu skenování textu z PDF v Javě se spustí objekt AsposeOCRPdf, který ve skutečnosti obsahuje funkce pro rozpoznání textu z PDF. Podporuje konfiguraci procesu detekce, jako je číslo úvodní stránky, počet stránek PDF ke čtení a možnost nastavení oblastí detekce pro řízení rychlosti a přesnosti. Nakonec analyzujeme kolekci výsledků naskenovaných z každé stránky a zobrazíme je na konzole.

Kód pro převod naskenovaného PDF na text v Javě

import java.util.ArrayList;
import com.aspose.ocr.DocumentRecognitionSettings;
import com.aspose.ocr.RecognitionResult;
import com.aspose.ocr.pdf.AsposeOCRPdf;
public class ExtractTextFromScannedPdfInJava {
public static void main(String[] args) {//main function for ExtractTextFromScannedPdfInJava class
// Instantiate an AsposeOcrPdf object
AsposeOCRPdf ocrPdfToReadText = new AsposeOCRPdf();
// Initialize DocumentRecognitionSettings class object for configuring recognition settings
DocumentRecognitionSettings docRecognitionConfig = new DocumentRecognitionSettings(1,3);
// Set detect areas to false to improve speed
docRecognitionConfig.setDetectAreas(false);
// Using the recognition settings, fetch text from the range of pages set in the constructor above
ArrayList<RecognitionResult> fetchedTextResults = ocrPdfToReadText.RecognizePdf("InputSampleFile.pdf", docRecognitionConfig);
// Iterate through all the text fetched from each page
int PageCounter = 1;
for(RecognitionResult page : fetchedTextResults)
{
System.out.println("Page No: " + PageCounter + " Fetched Text:" + page.recognitionText);
PageCounter++;
}
}
}

Tento kód používá AsposeOCRPdf k získání textu z naskenovaného PDF v Javě. Objekt třídy DocumentRecognitionSettings obsahuje možnosti pro nastavení konfigurace stránek buď pomocí konstruktoru, jak je ukázáno v tomto ukázkovém kódu, nebo samostatným nastavením StartPage a PagesNumber. Můžete také nastavit jazyk, opravy zkosení obrazu a počet vláken pro paralelní detekci textu z naskenovaného PDF.

V tomto článku jsme se naučili, jak extrahovat text z naskenovaného PDF v Javě spolu s konfigurací procesu detekce. Pokud však chcete z obrázku extrahovat text, přečtěte si článek na jak extrahovat text z obrázku pomocí Java.

 Čeština