Як конвертувати PDF у текст у Java

У цьому короткому посібнику описано, як перетворити PDF на текст у Java, завантаживши вхідний документ PDF і зберігши його у форматі Text. Крім того, за допомогою перетворювача Java PDF у текст можна налаштувати, щоб контролювати, чи потрібно виводити текст із форматуванням чи без нього порівняно з вихідним файлом PDF.

Кроки для перетворення PDF на текст у Java

  1. Налаштуйте свою програму, додавши посилання на Aspose.PDF із репозиторію Maven, щоб конвертувати PDF у текстовий файл
  2. Завантажте вхідний файл PDF з об’єктом класу Document для перетворення PDF у текстовий файл
  3. Створіть об’єкт класу TextAbsorber, щоб установити параметри вилучення тексту
  4. Запишіть витягнутий текст у текстовий файл

Наведені вище кроки детально описують процес розробки програми конвертера PDF у Text Java. На першому кроці вхідний PDF-документ завантажується за допомогою екземпляра класу Document, а потім вибирається, чи потрібен вам текст із форматуванням. Нарешті, ви можете використовувати текстовий рядок для запису у файл або подальшої обробки відповідно до ваших вимог.

Код для перетворення PDF на текст у Java

import com.aspose.pdf.Document;
import com.aspose.pdf.License;
import com.aspose.pdf.TextAbsorber;
import com.aspose.pdf.TextExtractionOptions;
import java.io.BufferedWriter;
import java.io.FileWriter;
import java.nio.file.Files;
public class ConvertPdfToTextInJava {
public static void main(String[] args) throws Exception { // main method to convert a PDF document to Text file
// Instantiate the license to avoid trial limitations while converting the PDF to a text file
License asposePdfLicenseText = new License();
asposePdfLicenseText.setLicense("Aspose.pdf.lic");
// Load the source PDF file that is to be converted to Text file
Document convertPDFDocumentToText = new Document("input.pdf");
// Instantiate a TextAbsorber class object for converting PDF to Text
TextAbsorber textAbsorber = new TextAbsorber(new TextExtractionOptions(TextExtractionOptions.TextFormattingMode.Pure));
// Call the Accept method exposed by the TextAbsorber class
convertPDFDocumentToText.getPages().accept(textAbsorber);
// Read the text as string
String ExtractedText = textAbsorber.getText();
// Create the BufferedWriter object to open the file
BufferedWriter writer = new BufferedWriter(new FileWriter(new File("SampleOutput.txt")));
// Write extracted contents to the file
writer.write(ExtractedText);
// Close writer
writer.close();
System.out.println("Done");
}
}

Цей зразок коду демонструє, що за допомогою Java конвертує PDF-файл у текст із повним контролем за допомогою різних параметрів, таких як клас TextAbsorber, має кілька конструкторів, у яких можна використовувати TextSearchOptions, які надають можливість перетворювати затінений текст у вихідному PDF як окремий текст. Подібним чином ви можете встановити прапорці для пошуку тексту лише в межах сторінки або встановити прямокутник для пошуку тексту лише у вказаній області на всіх сторінках.

Тут ми дізналися, як конвертувати PDF у текст у Java разом із фрагментом коду. Якщо ви хочете дізнатися, як конвертувати PDF у Word, перегляньте статтю як конвертувати PDF у Word на Java.

 Українська