Как да конвертирате PDF в текст в Java

Този кратък урок предоставя подробности за това как да конвертирате PDF в текст в Java чрез зареждане на входния PDF документ и записването му във формат Text. Освен това използването на Java PDF to Text converter може да бъде персонализирано, за да контролира дали искате изходния текст със или без форматиране в сравнение с изходния PDF файл.

Стъпки за конвертиране на PDF в текст в Java

  1. Конфигурирайте приложението си, като добавите препратка към Aspose.PDF от хранилището на Maven, за да конвертирате PDF в текстов файл
  2. Заредете входния PDF файл с обекта от клас Document за преобразуване на PDF в текстов файл
  3. Създайте обект от клас TextAbsorber, за да зададете опциите за извличане на текст
  4. Запишете извлечения текст в текстов файл

Стъпките по-горе разработват процеса на разработване на PDF към Text Java базирано конверторно приложение. В първата стъпка входният PDF документ се зарежда с помощта на екземпляра на класа на документа и след това изберете дали искате текстът да бъде форматиран или не. И накрая, можете да използвате текстовия низ, за да запишете във файл или да го обработите допълнително според вашите изисквания.

Код за конвертиране на PDF в текст в Java

import com.aspose.pdf.Document;
import com.aspose.pdf.License;
import com.aspose.pdf.TextAbsorber;
import com.aspose.pdf.TextExtractionOptions;
import java.io.BufferedWriter;
import java.io.FileWriter;
import java.nio.file.Files;
public class ConvertPdfToTextInJava {
public static void main(String[] args) throws Exception { // main method to convert a PDF document to Text file
// Instantiate the license to avoid trial limitations while converting the PDF to a text file
License asposePdfLicenseText = new License();
asposePdfLicenseText.setLicense("Aspose.pdf.lic");
// Load the source PDF file that is to be converted to Text file
Document convertPDFDocumentToText = new Document("input.pdf");
// Instantiate a TextAbsorber class object for converting PDF to Text
TextAbsorber textAbsorber = new TextAbsorber(new TextExtractionOptions(TextExtractionOptions.TextFormattingMode.Pure));
// Call the Accept method exposed by the TextAbsorber class
convertPDFDocumentToText.getPages().accept(textAbsorber);
// Read the text as string
String ExtractedText = textAbsorber.getText();
// Create the BufferedWriter object to open the file
BufferedWriter writer = new BufferedWriter(new FileWriter(new File("SampleOutput.txt")));
// Write extracted contents to the file
writer.write(ExtractedText);
// Close writer
writer.close();
System.out.println("Done");
}
}

Този примерен код демонстрира, че с помощта на Java преобразува PDF в текст с пълен контрол чрез използване на различни опции, като класа TextAbsorber, има множество конструктори, където можете да използвате TextSearchOptions, който предоставя опцията за преобразуване на защрихования текст в изходния PDF като отделен текст. По същия начин можете да зададете флагове за търсене на текст само в обвързаната страница или да зададете правоъгълник за търсене на текста от определена област само във всички страници.

Тук научихме как да конвертираме PDF в текст в Java заедно с кодовия фрагмент. Ако искате да научите процеса на конвертиране на PDF в Word, вижте статията на как да конвертирате PDF в Word в Java.

 Български