Tekst extraheren uit gescande PDF in Java

Deze korte handleiding biedt details over hoe u tekst uit gescande PDF in Java kunt extraheren. U kunt dit proces van het extraheren van tekst uit gescande PDF in Java configureren door de detectieparameters in te stellen. De optie is ook beschikbaar om een keuze te maken tussen snelheid of nauwkeurigheid, afhankelijk van de PDF kwaliteit en andere toepassingsvereisten.

Stappen om tekst uit gescande PDF in Java te extraheren

  1. Configureer vanuit de Maven-repository Aspose.OCR in uw project om gescande PDF-tekst te lezen
  2. Initialiseer AsposeOcrPdf object om tekst uit de PDF te lezen
  3. Instantieer het DocumentRecognitionSettings klasseobject voor het instellen van de herkenningsparameters
  4. Startpagina en aantal pagina’s in de PDF instellen voor het lezen van tekst
  5. Om de detectiesnelheid te verhogen, stelt u de vlag voor detectiegebieden in op false
  6. Roep de functie RecognizePdf aan om alle tekst te lezen volgens de bovenstaande configuratie
  7. Doorloop alle geëxtraheerde resultaten van de PDF-pagina’s en geef ze weer op de console

Tijdens het proces om tekst uit PDF in Java te scannen, wordt een object van AsposeOCRPdf gestart dat daadwerkelijk functies bevat om tekst uit de PDF te herkennen. Het ondersteunt het configureren van het detectieproces, zoals het startpaginanummer, het aantal te lezen PDF-pagina’s en de optie om detectiegebieden in te stellen voor het regelen van snelheid en nauwkeurigheid. Ten slotte analyseren we de resultatenverzameling die van elke pagina is gescand en geven we deze weer op de console.

Code om gescande PDF naar tekst in Java te converteren

Deze code gebruikt AsposeOCRPdf om tekst op te halen uit gescande PDF in Java. Het klasseobject DocumentRecognitionSettings bevat opties om de paginaconfiguratie in te stellen met behulp van de constructor zoals gedemonstreerd in deze voorbeeldcode of door de StartPage en PagesNumber afzonderlijk in te stellen. U kunt ook de taal, scheefheidscorrecties voor afbeeldingen en het aantal threads instellen voor parallelle detectie van tekst uit de gescande PDF.

In dit artikel hebben we geleerd hoe u tekst uit gescande PDF in Java kunt extraheren, samen met de configuratie van het detectieproces. Als u echter tekst uit een afbeelding wilt halen, raadpleegt u het artikel op hoe tekst uit een afbeelding te extraheren met Java.

 Nederlands