Hur man extraherar text från skannad PDF i Java

Den här snabba handledningen ger information om hur du extraherar text från skannad PDF i Java. Du kan konfigurera den här processen att extrahera text från skannad PDF i Java genom att ställa in detekteringsparametrarna. Alternativet är också tillgängligt för att välja mellan hastighet eller noggrannhet beroende på PDF-kvaliteten och andra applikationskrav.

Steg för att extrahera text från skannad PDF i Java

  1. Från Maven-arkivet, konfigurera Aspose.OCR i ditt projekt för att läsa skannad PDF-text
  2. Initiera AsposeOcrPdf objekt för att läsa text från PDF:en
  3. Instantiera klassobjektet DocumentRecognitionSettings för att ställa in igenkänningsparametrarna
  4. Ställ in startsida och antal sidor i PDF:en för att läsa text
  5. För att öka detekteringshastigheten ställer du in flaggan för detekteringsområde till false
  6. Ring RecognizePdf-funktionen för att läsa all text enligt ovanstående konfiguration
  7. Iterera igenom alla extraherade resultat från PDF-sidorna och visa dem på konsolen

Under processen att skanna text från PDF i Java, initieras ett objekt av AsposeOCRPdf som faktiskt innehåller funktioner för att känna igen text från PDF:en. Den stöder konfigurering av detekteringsprocessen som startsidenummer, antal PDF-sidor som ska läsas och möjlighet att ställa in detekteringsområden för kontroll av hastighet och noggrannhet. Slutligen analyserar vi resultatsamlingen som skannats från varje sida och visar dem på konsolen.

Kod för att konvertera skannad PDF till text i Java

Den här koden använder AsposeOCRPdf för att få text från skannad PDF i Java. Klassobjektet DocumentRecognitionSettings innehåller alternativ för att ställa in sidkonfiguration antingen med konstruktorn som visas i denna exempelkod eller genom att ställa in StartPage och PagesNumber separat. Du kan också ställa in språk, snedställningskorrigeringar och trådräkning för parallell detektering av text från den skannade PDF-filen.

I den här artikeln har vi lärt oss hur man extraherar text från skannad PDF i Java tillsammans med konfigurationen av upptäcktsprocessen. Men om du vill extrahera text från en bild, se artikeln om hur man extraherar text från bild med Java.

 Svenska