Ez a gyors oktatóanyag részleteket tartalmaz arról, hogyan lehet szöveget kivonni a beolvasott PDF-ből Java-ban. Az észlelési paraméterek beállításával beállíthatja ezt a szöveg kibontását a Java nyelven beolvasott PDF-ből. A lehetőség a sebesség és a pontosság közötti választásra is elérhető a PDF minőségétől és az alkalmazás egyéb követelményeitől függően.
Szöveg kivonásának lépései a beszkennelt PDF-ből Java nyelven
- A Maven adattárból állítsa be a projektben a Aspose.OCR elemet a beolvasott PDF szöveg olvasásához
- Inicializálja a AsposeOcrPdf objektumot a PDF szövegének olvasásához
- Példányosítsa a DocumentRecognitionSettings osztályobjektumot a felismerési paraméterek beállításához
- Állítsa be a kezdőoldalt és az oldalak számát a PDF-ben a szöveg olvasásához
- Az észlelési sebesség növeléséhez állítsa az észlelési területek jelzőjét false értékre
- Hívja a RecognizePdf funkciót az összes szöveg elolvasásához a fenti konfiguráció szerint
- Ismételje meg a PDF-oldalakról kinyert összes eredményt, és jelenítse meg őket a konzolon
A Java nyelvű PDF-ből származó szöveg beolvasása során az AsposeOCRPdf olyan objektuma indul el, amely ténylegesen tartalmaz funkciókat a PDF-ből származó szöveg felismerésére. Támogatja az észlelési folyamat konfigurálását, például a kezdőoldal számát, az olvasandó PDF-oldalak számát, valamint az észlelési területek beállítását a sebesség és a pontosság szabályozásához. Végül elemezzük az egyes oldalakról beolvasott eredménygyűjteményt, és megjelenítjük a konzolon.
Kód a beolvasott PDF szöveggé konvertálásához Java nyelven
import java.util.ArrayList; | |
import com.aspose.ocr.DocumentRecognitionSettings; | |
import com.aspose.ocr.RecognitionResult; | |
import com.aspose.ocr.pdf.AsposeOCRPdf; | |
public class ExtractTextFromScannedPdfInJava { | |
public static void main(String[] args) {//main function for ExtractTextFromScannedPdfInJava class | |
// Instantiate an AsposeOcrPdf object | |
AsposeOCRPdf ocrPdfToReadText = new AsposeOCRPdf(); | |
// Initialize DocumentRecognitionSettings class object for configuring recognition settings | |
DocumentRecognitionSettings docRecognitionConfig = new DocumentRecognitionSettings(1,3); | |
// Set detect areas to false to improve speed | |
docRecognitionConfig.setDetectAreas(false); | |
// Using the recognition settings, fetch text from the range of pages set in the constructor above | |
ArrayList<RecognitionResult> fetchedTextResults = ocrPdfToReadText.RecognizePdf("InputSampleFile.pdf", docRecognitionConfig); | |
// Iterate through all the text fetched from each page | |
int PageCounter = 1; | |
for(RecognitionResult page : fetchedTextResults) | |
{ | |
System.out.println("Page No: " + PageCounter + " Fetched Text:" + page.recognitionText); | |
PageCounter++; | |
} | |
} | |
} |
Ez a kód az AsposeOCRPdf-et használja a szöveg lekéréséhez a Java nyelven beolvasott PDF-ből. A DocumentRecognitionSettings osztályobjektum opciókat tartalmaz az oldalak konfigurációjának beállítására a jelen példakódban bemutatott konstruktor használatával vagy a StartPage és a PagesNumber külön beállításával. Beállíthatja a nyelvet, a képferdeség-javításokat és a szálak számát is a beolvasott PDF szövegének párhuzamos észleléséhez.
Ebben a cikkben megtanultuk, hogyan lehet szöveget kivonni a beolvasott PDF-ből Java nyelven, valamint az észlelési folyamat konfigurációját. Ha azonban szöveget szeretne kivonni egy képből, olvassa el a hogyan lehet szöveget kivonni a képből Java segítségével című cikket.