Este tutorial rápido fornece detalhes sobre como extrair texto de PDF digitalizado em Java. Você pode configurar esse processo de extração de texto de PDF digitalizado em Java definindo os parâmetros de detecção. A opção também está disponível para fazer uma seleção entre a velocidade ou precisão dependendo da qualidade PDF e outros requisitos do aplicativo.
Etapas para extrair texto de PDF digitalizado em Java
- No repositório Maven, configure Aspose.OCR em seu projeto para ler o texto PDF digitalizado
- Inicialize o objeto AsposeOcrPdf para ler o texto do PDF
- Instancie o objeto de classe DocumentRecognitionSettings para definir os parâmetros de reconhecimento
- Defina a página inicial e o número de páginas no PDF para leitura de texto
- Para aumentar a velocidade de detecção, defina o sinalizador de áreas de detecção como falso
- Chame a função RecognizePdf para ler todo o texto de acordo com a configuração acima
- Iterar por todos os resultados extraídos das páginas PDF e exibi-los no console
Durante o processo de digitalizar texto de PDF em Java, é iniciado um objeto AsposeOCRPdf que realmente contém recursos para reconhecer texto do PDF. Ele suporta a configuração do processo de detecção, como o número da página inicial, o número de páginas PDF a serem lidas e a opção de definir áreas de detecção para controlar a velocidade e a precisão. Por fim, analisamos a coleção de resultados verificados de cada página e os exibimos no console.
Código para converter PDF digitalizado em texto em Java
import java.util.ArrayList; | |
import com.aspose.ocr.DocumentRecognitionSettings; | |
import com.aspose.ocr.RecognitionResult; | |
import com.aspose.ocr.pdf.AsposeOCRPdf; | |
public class ExtractTextFromScannedPdfInJava { | |
public static void main(String[] args) {//main function for ExtractTextFromScannedPdfInJava class | |
// Instantiate an AsposeOcrPdf object | |
AsposeOCRPdf ocrPdfToReadText = new AsposeOCRPdf(); | |
// Initialize DocumentRecognitionSettings class object for configuring recognition settings | |
DocumentRecognitionSettings docRecognitionConfig = new DocumentRecognitionSettings(1,3); | |
// Set detect areas to false to improve speed | |
docRecognitionConfig.setDetectAreas(false); | |
// Using the recognition settings, fetch text from the range of pages set in the constructor above | |
ArrayList<RecognitionResult> fetchedTextResults = ocrPdfToReadText.RecognizePdf("InputSampleFile.pdf", docRecognitionConfig); | |
// Iterate through all the text fetched from each page | |
int PageCounter = 1; | |
for(RecognitionResult page : fetchedTextResults) | |
{ | |
System.out.println("Page No: " + PageCounter + " Fetched Text:" + page.recognitionText); | |
PageCounter++; | |
} | |
} | |
} |
Este código usa AsposeOCRPdf para obter texto de PDF digitalizado em Java. O objeto de classe DocumentRecognitionSettings contém opções para definir a configuração de páginas usando o construtor conforme demonstrado neste código de exemplo ou definindo o StartPage e o PagesNumber separadamente. Você também pode definir o idioma, as correções de distorção da imagem e a contagem de linhas para detecção paralela de texto do PDF digitalizado.
Neste artigo, aprendemos como extrair texto de PDF digitalizado em Java junto com a configuração do processo de detecção. No entanto, se você quiser extrair texto de uma imagem, consulte o artigo em como extrair texto de imagem usando Java.