Tento krátký tutoriál poskytuje podrobnosti o tom, jak převést PDF na text v Javě načtením vstupního PDF dokumentu a jeho uložením do formátu Text. Kromě toho lze pomocí Java PDF to Text converter upravit, zda chcete, aby byl výstup textu s formátováním nebo bez formátování ve srovnání se zdrojovým souborem PDF.
Kroky k převodu PDF na text v Javě
- Nakonfigurujte svou aplikaci přidáním odkazu na Aspose.PDF z úložiště Maven pro převod PDF na textový soubor
- Načtěte vstupní soubor PDF s objektem třídy Document pro převod PDF na textový soubor
- Vytvořte objekt třídy TextAbsorber pro nastavení možností extrakce textu
- Zapište extrahovaný text do textového souboru
Výše uvedené kroky upřesňují proces vývoje aplikace pro převod PDF na text Java. V prvním kroku se načte vstupní dokument PDF pomocí instance třídy Dokument a poté vyberte, zda chcete text s formátováním nebo ne. Nakonec můžete textový řetězec použít k zápisu do souboru nebo jej dále zpracovávat podle vašich požadavků.
Kód pro převod PDF na text v Javě
import com.aspose.pdf.Document; | |
import com.aspose.pdf.License; | |
import com.aspose.pdf.TextAbsorber; | |
import com.aspose.pdf.TextExtractionOptions; | |
import java.io.BufferedWriter; | |
import java.io.FileWriter; | |
import java.nio.file.Files; | |
public class ConvertPdfToTextInJava { | |
public static void main(String[] args) throws Exception { // main method to convert a PDF document to Text file | |
// Instantiate the license to avoid trial limitations while converting the PDF to a text file | |
License asposePdfLicenseText = new License(); | |
asposePdfLicenseText.setLicense("Aspose.pdf.lic"); | |
// Load the source PDF file that is to be converted to Text file | |
Document convertPDFDocumentToText = new Document("input.pdf"); | |
// Instantiate a TextAbsorber class object for converting PDF to Text | |
TextAbsorber textAbsorber = new TextAbsorber(new TextExtractionOptions(TextExtractionOptions.TextFormattingMode.Pure)); | |
// Call the Accept method exposed by the TextAbsorber class | |
convertPDFDocumentToText.getPages().accept(textAbsorber); | |
// Read the text as string | |
String ExtractedText = textAbsorber.getText(); | |
// Create the BufferedWriter object to open the file | |
BufferedWriter writer = new BufferedWriter(new FileWriter(new File("SampleOutput.txt"))); | |
// Write extracted contents to the file | |
writer.write(ExtractedText); | |
// Close writer | |
writer.close(); | |
System.out.println("Done"); | |
} | |
} |
Tento ukázkový kód ukazuje, že pomocí Java převést PDF na text s plnou kontrolou pomocí různých možností, jako je třída TextAbsorber, která má více konstruktorů, kde můžete použít TextSearchOptions, které poskytují možnost převést stínovaný text ve zdrojovém PDF jako samostatný text. Podobně můžete nastavit příznaky pro hledání textu pouze v rámci stránky nebo nastavit obdélník pro hledání textu pouze v určené oblasti na všech stránkách.
Zde jsme se naučili, jak převést PDF na text v Javě spolu s fragmentem kódu. Pokud se chcete naučit proces převodu PDF do Wordu, přečtěte si článek na jak převést PDF do Wordu v Javě.