Jak przekonwertować plik PDF na tekst w Javie

Ten krótki samouczek zawiera szczegółowe informacje o tym, jak konwertować plik PDF na tekst w Javie, ładując dokument wejściowy PDF i zapisując go w formacie Text. Co więcej, za pomocą Java PDF to Text Converter można dostosować, aby kontrolować, czy chcesz, aby wyjściowy tekst z formatowaniem lub bez był porównywany ze źródłowym plikiem PDF.

Kroki, aby przekonwertować plik PDF na tekst w Javie

  1. Skonfiguruj swoją aplikację, dodając odwołanie do Aspose.PDF z repozytorium Maven, aby przekonwertować PDF na plik tekstowy
  2. Załaduj wejściowy plik PDF z obiektem klasy Document w celu konwersji pliku PDF na plik tekstowy
  3. Utwórz obiekt klasy TextAbsorber, aby ustawić opcje wyodrębniania tekstu
  4. Zapisz wyodrębniony tekst do pliku tekstowego

Powyższe kroki opisują proces tworzenia aplikacji konwertującej pliki PDF na Text Java. W pierwszym kroku wejściowy dokument PDF jest ładowany przy użyciu instancji klasy Document, a następnie wybiera się, czy tekst ma być sformatowany, czy nie. Na koniec możesz użyć ciągu tekstowego, aby zapisać go w pliku lub przetworzyć go dalej zgodnie z własnymi wymaganiami.

Kod do konwersji plików PDF na tekst w Javie

import com.aspose.pdf.Document;
import com.aspose.pdf.License;
import com.aspose.pdf.TextAbsorber;
import com.aspose.pdf.TextExtractionOptions;
import java.io.BufferedWriter;
import java.io.FileWriter;
import java.nio.file.Files;
public class ConvertPdfToTextInJava {
public static void main(String[] args) throws Exception { // main method to convert a PDF document to Text file
// Instantiate the license to avoid trial limitations while converting the PDF to a text file
License asposePdfLicenseText = new License();
asposePdfLicenseText.setLicense("Aspose.pdf.lic");
// Load the source PDF file that is to be converted to Text file
Document convertPDFDocumentToText = new Document("input.pdf");
// Instantiate a TextAbsorber class object for converting PDF to Text
TextAbsorber textAbsorber = new TextAbsorber(new TextExtractionOptions(TextExtractionOptions.TextFormattingMode.Pure));
// Call the Accept method exposed by the TextAbsorber class
convertPDFDocumentToText.getPages().accept(textAbsorber);
// Read the text as string
String ExtractedText = textAbsorber.getText();
// Create the BufferedWriter object to open the file
BufferedWriter writer = new BufferedWriter(new FileWriter(new File("SampleOutput.txt")));
// Write extracted contents to the file
writer.write(ExtractedText);
// Close writer
writer.close();
System.out.println("Done");
}
}

Ten przykładowy kod pokazuje, że za pomocą Java przekonwertuj PDF na tekst z pełną kontrolą przy użyciu różnych opcji, takich jak klasa TextAbsorber, ma wiele konstruktorów, w których można użyć TextSearchOptions, który zapewnia opcję konwersji zacienionego tekstu w źródłowym pliku PDF na osobny tekst. Podobnie możesz ustawić flagi, aby wyszukiwać tekst tylko w obramowaniu strony lub ustawić prostokąt, aby wyszukiwać tekst tylko z określonego obszaru na wszystkich stronach.

Tutaj nauczyliśmy się, jak konwertować pliki PDF na tekst w Javie wraz z fragmentem kodu. Jeśli chcesz poznać proces konwersji plików PDF na Word, zapoznaj się z artykułem na jak przekonwertować PDF na Word w Javie.

 Polski