У цьому короткому посібнику описано, як перетворити PDF на текст у Java, завантаживши вхідний документ PDF і зберігши його у форматі Text. Крім того, за допомогою перетворювача Java PDF у текст можна налаштувати, щоб контролювати, чи потрібно виводити текст із форматуванням чи без нього порівняно з вихідним файлом PDF.
Кроки для перетворення PDF на текст у Java
- Налаштуйте свою програму, додавши посилання на Aspose.PDF із репозиторію Maven, щоб конвертувати PDF у текстовий файл
- Завантажте вхідний файл PDF з об’єктом класу Document для перетворення PDF у текстовий файл
- Створіть об’єкт класу TextAbsorber, щоб установити параметри вилучення тексту
- Запишіть витягнутий текст у текстовий файл
Наведені вище кроки детально описують процес розробки програми конвертера PDF у Text Java. На першому кроці вхідний PDF-документ завантажується за допомогою екземпляра класу Document, а потім вибирається, чи потрібен вам текст із форматуванням. Нарешті, ви можете використовувати текстовий рядок для запису у файл або подальшої обробки відповідно до ваших вимог.
Код для перетворення PDF на текст у Java
import com.aspose.pdf.Document; | |
import com.aspose.pdf.License; | |
import com.aspose.pdf.TextAbsorber; | |
import com.aspose.pdf.TextExtractionOptions; | |
import java.io.BufferedWriter; | |
import java.io.FileWriter; | |
import java.nio.file.Files; | |
public class ConvertPdfToTextInJava { | |
public static void main(String[] args) throws Exception { // main method to convert a PDF document to Text file | |
// Instantiate the license to avoid trial limitations while converting the PDF to a text file | |
License asposePdfLicenseText = new License(); | |
asposePdfLicenseText.setLicense("Aspose.pdf.lic"); | |
// Load the source PDF file that is to be converted to Text file | |
Document convertPDFDocumentToText = new Document("input.pdf"); | |
// Instantiate a TextAbsorber class object for converting PDF to Text | |
TextAbsorber textAbsorber = new TextAbsorber(new TextExtractionOptions(TextExtractionOptions.TextFormattingMode.Pure)); | |
// Call the Accept method exposed by the TextAbsorber class | |
convertPDFDocumentToText.getPages().accept(textAbsorber); | |
// Read the text as string | |
String ExtractedText = textAbsorber.getText(); | |
// Create the BufferedWriter object to open the file | |
BufferedWriter writer = new BufferedWriter(new FileWriter(new File("SampleOutput.txt"))); | |
// Write extracted contents to the file | |
writer.write(ExtractedText); | |
// Close writer | |
writer.close(); | |
System.out.println("Done"); | |
} | |
} |
Цей зразок коду демонструє, що за допомогою Java конвертує PDF-файл у текст із повним контролем за допомогою різних параметрів, таких як клас TextAbsorber, має кілька конструкторів, у яких можна використовувати TextSearchOptions, які надають можливість перетворювати затінений текст у вихідному PDF як окремий текст. Подібним чином ви можете встановити прапорці для пошуку тексту лише в межах сторінки або встановити прямокутник для пошуку тексту лише у вказаній області на всіх сторінках.
Тут ми дізналися, як конвертувати PDF у текст у Java разом із фрагментом коду. Якщо ви хочете дізнатися, як конвертувати PDF у Word, перегляньте статтю як конвертувати PDF у Word на Java.