Ten krótki samouczek zawiera szczegółowe informacje o tym, jak konwertować plik PDF na tekst w Javie, ładując dokument wejściowy PDF i zapisując go w formacie Text. Co więcej, za pomocą Java PDF to Text Converter można dostosować, aby kontrolować, czy chcesz, aby wyjściowy tekst z formatowaniem lub bez był porównywany ze źródłowym plikiem PDF.
Kroki, aby przekonwertować plik PDF na tekst w Javie
- Skonfiguruj swoją aplikację, dodając odwołanie do Aspose.PDF z repozytorium Maven, aby przekonwertować PDF na plik tekstowy
- Załaduj wejściowy plik PDF z obiektem klasy Document w celu konwersji pliku PDF na plik tekstowy
- Utwórz obiekt klasy TextAbsorber, aby ustawić opcje wyodrębniania tekstu
- Zapisz wyodrębniony tekst do pliku tekstowego
Powyższe kroki opisują proces tworzenia aplikacji konwertującej pliki PDF na Text Java. W pierwszym kroku wejściowy dokument PDF jest ładowany przy użyciu instancji klasy Document, a następnie wybiera się, czy tekst ma być sformatowany, czy nie. Na koniec możesz użyć ciągu tekstowego, aby zapisać go w pliku lub przetworzyć go dalej zgodnie z własnymi wymaganiami.
Kod do konwersji plików PDF na tekst w Javie
import com.aspose.pdf.Document; | |
import com.aspose.pdf.License; | |
import com.aspose.pdf.TextAbsorber; | |
import com.aspose.pdf.TextExtractionOptions; | |
import java.io.BufferedWriter; | |
import java.io.FileWriter; | |
import java.nio.file.Files; | |
public class ConvertPdfToTextInJava { | |
public static void main(String[] args) throws Exception { // main method to convert a PDF document to Text file | |
// Instantiate the license to avoid trial limitations while converting the PDF to a text file | |
License asposePdfLicenseText = new License(); | |
asposePdfLicenseText.setLicense("Aspose.pdf.lic"); | |
// Load the source PDF file that is to be converted to Text file | |
Document convertPDFDocumentToText = new Document("input.pdf"); | |
// Instantiate a TextAbsorber class object for converting PDF to Text | |
TextAbsorber textAbsorber = new TextAbsorber(new TextExtractionOptions(TextExtractionOptions.TextFormattingMode.Pure)); | |
// Call the Accept method exposed by the TextAbsorber class | |
convertPDFDocumentToText.getPages().accept(textAbsorber); | |
// Read the text as string | |
String ExtractedText = textAbsorber.getText(); | |
// Create the BufferedWriter object to open the file | |
BufferedWriter writer = new BufferedWriter(new FileWriter(new File("SampleOutput.txt"))); | |
// Write extracted contents to the file | |
writer.write(ExtractedText); | |
// Close writer | |
writer.close(); | |
System.out.println("Done"); | |
} | |
} |
Ten przykładowy kod pokazuje, że za pomocą Java przekonwertuj PDF na tekst z pełną kontrolą przy użyciu różnych opcji, takich jak klasa TextAbsorber, ma wiele konstruktorów, w których można użyć TextSearchOptions, który zapewnia opcję konwersji zacienionego tekstu w źródłowym pliku PDF na osobny tekst. Podobnie możesz ustawić flagi, aby wyszukiwać tekst tylko w obramowaniu strony lub ustawić prostokąt, aby wyszukiwać tekst tylko z określonego obszaru na wszystkich stronach.
Tutaj nauczyliśmy się, jak konwertować pliki PDF na tekst w Javie wraz z fragmentem kodu. Jeśli chcesz poznać proces konwersji plików PDF na Word, zapoznaj się z artykułem na jak przekonwertować PDF na Word w Javie.