Ez a rövid útmutató részletesen ismerteti, hogyan lehet a PDF-et szöveggé konvertálni Java nyelven a bemeneti PDF dokumentum betöltésével és a Text formátumba mentésével. Ezenkívül a Java PDF szöveggé konvertáló használatával testreszabható, hogy szabályozza, hogy a kimeneti szöveget formázással vagy anélkül kívánja-e a forrás PDF-fájlhoz képest.
Lépések a PDF szöveggé konvertálásához Java nyelven
- Állítsa be az alkalmazást a Aspose.PDF hivatkozás hozzáadásával a Maven adattárból, hogy a PDF-t szövegfájllá konvertálja
- Töltse be a bemeneti PDF-fájlt a Document osztályobjektummal a PDF szöveges fájllá alakításához
- Hozzon létre egy objektumot a TextAbsorber osztályból a szövegkivonási beállítások megadásához
- Írja a kibontott szöveget egy szövegfájlba
A fenti lépések egy PDF to Text Java alapú konvertáló alkalmazás fejlesztésének folyamatát részletezik. Első lépésben a bemeneti PDF-dokumentum betöltődik a Dokumentum osztálypéldány segítségével, majd válassza ki, hogy a szöveget formázva kívánja-e vagy sem. Végül használhatja a szöveges karakterláncot, hogy fájlba írjon, vagy igénye szerint tovább feldolgozhatja.
Kód a PDF szöveggé konvertálásához Java nyelven
import com.aspose.pdf.Document; | |
import com.aspose.pdf.License; | |
import com.aspose.pdf.TextAbsorber; | |
import com.aspose.pdf.TextExtractionOptions; | |
import java.io.BufferedWriter; | |
import java.io.FileWriter; | |
import java.nio.file.Files; | |
public class ConvertPdfToTextInJava { | |
public static void main(String[] args) throws Exception { // main method to convert a PDF document to Text file | |
// Instantiate the license to avoid trial limitations while converting the PDF to a text file | |
License asposePdfLicenseText = new License(); | |
asposePdfLicenseText.setLicense("Aspose.pdf.lic"); | |
// Load the source PDF file that is to be converted to Text file | |
Document convertPDFDocumentToText = new Document("input.pdf"); | |
// Instantiate a TextAbsorber class object for converting PDF to Text | |
TextAbsorber textAbsorber = new TextAbsorber(new TextExtractionOptions(TextExtractionOptions.TextFormattingMode.Pure)); | |
// Call the Accept method exposed by the TextAbsorber class | |
convertPDFDocumentToText.getPages().accept(textAbsorber); | |
// Read the text as string | |
String ExtractedText = textAbsorber.getText(); | |
// Create the BufferedWriter object to open the file | |
BufferedWriter writer = new BufferedWriter(new FileWriter(new File("SampleOutput.txt"))); | |
// Write extracted contents to the file | |
writer.write(ExtractedText); | |
// Close writer | |
writer.close(); | |
System.out.println("Done"); | |
} | |
} |
Ez a mintakód bemutatja, hogy a Java PDF-t szöveggé konvertálásával teljes vezérléssel, különböző beállításokkal, például a TextAbsorber osztálynak több konstruktora is van, ahol a TextSearchOptions használatával lehetőség nyílik arra, hogy a forrás-PDF-ben lévő árnyékolt szöveget külön szövegként konvertálják. Hasonlóképpen beállíthat jelzőket úgy, hogy csak az oldalon belüli szöveget keressen, vagy beállíthat egy téglalapot, hogy az összes oldalon csak egy meghatározott területen keressen a szövegben.
Itt megtanultuk, hogyan lehet PDF-et szöveggé konvertálni Java nyelven a kódrészlettel együtt. Ha meg szeretné tanulni a PDF-ből Word formátumba konvertálásának folyamatát, olvassa el a hogyan lehet PDF-et Word-be konvertálni Java-ban című cikket.