Hogyan lehet szöveget kivonni a beolvasott PDF-ből Java-ban

Ez a gyors oktatóanyag részleteket tartalmaz arról, hogyan lehet szöveget kivonni a beolvasott PDF-ből Java-ban. Az észlelési paraméterek beállításával beállíthatja ezt a szöveg kibontását a Java nyelven beolvasott PDF-ből. A lehetőség a sebesség és a pontosság közötti választásra is elérhető a PDF minőségétől és az alkalmazás egyéb követelményeitől függően.

Szöveg kivonásának lépései a beszkennelt PDF-ből Java nyelven

  1. A Maven adattárból állítsa be a projektben a Aspose.OCR elemet a beolvasott PDF szöveg olvasásához
  2. Inicializálja a AsposeOcrPdf objektumot a PDF szövegének olvasásához
  3. Példányosítsa a DocumentRecognitionSettings osztályobjektumot a felismerési paraméterek beállításához
  4. Állítsa be a kezdőoldalt és az oldalak számát a PDF-ben a szöveg olvasásához
  5. Az észlelési sebesség növeléséhez állítsa az észlelési területek jelzőjét false értékre
  6. Hívja a RecognizePdf funkciót az összes szöveg elolvasásához a fenti konfiguráció szerint
  7. Ismételje meg a PDF-oldalakról kinyert összes eredményt, és jelenítse meg őket a konzolon

A Java nyelvű PDF-ből származó szöveg beolvasása során az AsposeOCRPdf olyan objektuma indul el, amely ténylegesen tartalmaz funkciókat a PDF-ből származó szöveg felismerésére. Támogatja az észlelési folyamat konfigurálását, például a kezdőoldal számát, az olvasandó PDF-oldalak számát, valamint az észlelési területek beállítását a sebesség és a pontosság szabályozásához. Végül elemezzük az egyes oldalakról beolvasott eredménygyűjteményt, és megjelenítjük a konzolon.

Kód a beolvasott PDF szöveggé konvertálásához Java nyelven

import java.util.ArrayList;
import com.aspose.ocr.DocumentRecognitionSettings;
import com.aspose.ocr.RecognitionResult;
import com.aspose.ocr.pdf.AsposeOCRPdf;
public class ExtractTextFromScannedPdfInJava {
public static void main(String[] args) {//main function for ExtractTextFromScannedPdfInJava class
// Instantiate an AsposeOcrPdf object
AsposeOCRPdf ocrPdfToReadText = new AsposeOCRPdf();
// Initialize DocumentRecognitionSettings class object for configuring recognition settings
DocumentRecognitionSettings docRecognitionConfig = new DocumentRecognitionSettings(1,3);
// Set detect areas to false to improve speed
docRecognitionConfig.setDetectAreas(false);
// Using the recognition settings, fetch text from the range of pages set in the constructor above
ArrayList<RecognitionResult> fetchedTextResults = ocrPdfToReadText.RecognizePdf("InputSampleFile.pdf", docRecognitionConfig);
// Iterate through all the text fetched from each page
int PageCounter = 1;
for(RecognitionResult page : fetchedTextResults)
{
System.out.println("Page No: " + PageCounter + " Fetched Text:" + page.recognitionText);
PageCounter++;
}
}
}

Ez a kód az AsposeOCRPdf-et használja a szöveg lekéréséhez a Java nyelven beolvasott PDF-ből. A DocumentRecognitionSettings osztályobjektum opciókat tartalmaz az oldalak konfigurációjának beállítására a jelen példakódban bemutatott konstruktor használatával vagy a StartPage és a PagesNumber külön beállításával. Beállíthatja a nyelvet, a képferdeség-javításokat és a szálak számát is a beolvasott PDF szövegének párhuzamos észleléséhez.

Ebben a cikkben megtanultuk, hogyan lehet szöveget kivonni a beolvasott PDF-ből Java nyelven, valamint az észlelési folyamat konfigurációját. Ha azonban szöveget szeretne kivonni egy képből, olvassa el a hogyan lehet szöveget kivonni a képből Java segítségével című cikket.

 Magyar