Hoe PDF naar tekst in Java te converteren

Deze korte zelfstudie geeft details over hoe u PDF naar tekst in Java kunt converteren door het invoerdocument PDF te laden en op te slaan in de indeling Text. Bovendien kan het gebruik van Java PDF naar Tekst-converter worden aangepast om te bepalen of u de uitvoertekst met of zonder opmaak wilt in vergelijking met het bron-PDF-bestand.

Stappen om PDF naar tekst te converteren in Java

  1. Configureer uw toepassing door de verwijzing naar Aspose.PDF uit de Maven-repository toe te voegen om PDF naar een tekstbestand te converteren
  2. Laad het ingevoerde PDF-bestand met het Document klasseobject voor conversie van PDF naar een tekstbestand
  3. Maak een object van de klasse TextAbsorber om de opties voor tekstextractie in te stellen
  4. Schrijf de uitgepakte tekst naar een tekstbestand

De bovenstaande stappen beschrijven het proces van het ontwikkelen van een op PDF naar tekst Java gebaseerde conversietoepassing. In de eerste stap wordt het invoer-PDF-document geladen met behulp van de documentklasse-instantie en selecteert u vervolgens of u de tekst met opmaak wilt of niet. Ten slotte kunt u de tekenreeks gebruiken om naar een bestand te schrijven of het verder te verwerken volgens uw vereisten.

Code om PDF naar tekst in Java te converteren

import com.aspose.pdf.Document;
import com.aspose.pdf.License;
import com.aspose.pdf.TextAbsorber;
import com.aspose.pdf.TextExtractionOptions;
import java.io.BufferedWriter;
import java.io.FileWriter;
import java.nio.file.Files;
public class ConvertPdfToTextInJava {
public static void main(String[] args) throws Exception { // main method to convert a PDF document to Text file
// Instantiate the license to avoid trial limitations while converting the PDF to a text file
License asposePdfLicenseText = new License();
asposePdfLicenseText.setLicense("Aspose.pdf.lic");
// Load the source PDF file that is to be converted to Text file
Document convertPDFDocumentToText = new Document("input.pdf");
// Instantiate a TextAbsorber class object for converting PDF to Text
TextAbsorber textAbsorber = new TextAbsorber(new TextExtractionOptions(TextExtractionOptions.TextFormattingMode.Pure));
// Call the Accept method exposed by the TextAbsorber class
convertPDFDocumentToText.getPages().accept(textAbsorber);
// Read the text as string
String ExtractedText = textAbsorber.getText();
// Create the BufferedWriter object to open the file
BufferedWriter writer = new BufferedWriter(new FileWriter(new File("SampleOutput.txt")));
// Write extracted contents to the file
writer.write(ExtractedText);
// Close writer
writer.close();
System.out.println("Done");
}
}

Deze voorbeeldcode laat zien dat door Java PDF naar tekst te converteren met volledige controle door verschillende opties te gebruiken, zoals de TextAbsorber-klasse, meerdere constructors zijn waar u TextSearchOptions kunt gebruiken, die de optie biedt om de gearceerde tekst in de bron-PDF om te zetten als een afzonderlijke tekst. Op dezelfde manier kunt u vlaggen instellen om alleen tekst te zoeken binnen de pagina-grens of een rechthoek instellen om de tekst alleen in een bepaald gebied op alle pagina’s te doorzoeken.

Hier hebben we geleerd hoe we PDF naar tekst in Java kunnen converteren, samen met het codefragment. Als u het proces wilt leren om PDF naar Word te converteren, raadpleeg dan het artikel op hoe PDF naar Word in Java te converteren.

 Nederlands