Този кратък урок предоставя подробности за това как да конвертирате PDF в текст в Java чрез зареждане на входния PDF документ и записването му във формат Text. Освен това използването на Java PDF to Text converter може да бъде персонализирано, за да контролира дали искате изходния текст със или без форматиране в сравнение с изходния PDF файл.
Стъпки за конвертиране на PDF в текст в Java
- Конфигурирайте приложението си, като добавите препратка към Aspose.PDF от хранилището на Maven, за да конвертирате PDF в текстов файл
- Заредете входния PDF файл с обекта от клас Document за преобразуване на PDF в текстов файл
- Създайте обект от клас TextAbsorber, за да зададете опциите за извличане на текст
- Запишете извлечения текст в текстов файл
Стъпките по-горе разработват процеса на разработване на PDF към Text Java базирано конверторно приложение. В първата стъпка входният PDF документ се зарежда с помощта на екземпляра на класа на документа и след това изберете дали искате текстът да бъде форматиран или не. И накрая, можете да използвате текстовия низ, за да запишете във файл или да го обработите допълнително според вашите изисквания.
Код за конвертиране на PDF в текст в Java
import com.aspose.pdf.Document; | |
import com.aspose.pdf.License; | |
import com.aspose.pdf.TextAbsorber; | |
import com.aspose.pdf.TextExtractionOptions; | |
import java.io.BufferedWriter; | |
import java.io.FileWriter; | |
import java.nio.file.Files; | |
public class ConvertPdfToTextInJava { | |
public static void main(String[] args) throws Exception { // main method to convert a PDF document to Text file | |
// Instantiate the license to avoid trial limitations while converting the PDF to a text file | |
License asposePdfLicenseText = new License(); | |
asposePdfLicenseText.setLicense("Aspose.pdf.lic"); | |
// Load the source PDF file that is to be converted to Text file | |
Document convertPDFDocumentToText = new Document("input.pdf"); | |
// Instantiate a TextAbsorber class object for converting PDF to Text | |
TextAbsorber textAbsorber = new TextAbsorber(new TextExtractionOptions(TextExtractionOptions.TextFormattingMode.Pure)); | |
// Call the Accept method exposed by the TextAbsorber class | |
convertPDFDocumentToText.getPages().accept(textAbsorber); | |
// Read the text as string | |
String ExtractedText = textAbsorber.getText(); | |
// Create the BufferedWriter object to open the file | |
BufferedWriter writer = new BufferedWriter(new FileWriter(new File("SampleOutput.txt"))); | |
// Write extracted contents to the file | |
writer.write(ExtractedText); | |
// Close writer | |
writer.close(); | |
System.out.println("Done"); | |
} | |
} |
Този примерен код демонстрира, че с помощта на Java преобразува PDF в текст с пълен контрол чрез използване на различни опции, като класа TextAbsorber, има множество конструктори, където можете да използвате TextSearchOptions, който предоставя опцията за преобразуване на защрихования текст в изходния PDF като отделен текст. По същия начин можете да зададете флагове за търсене на текст само в обвързаната страница или да зададете правоъгълник за търсене на текста от определена област само във всички страници.
Тук научихме как да конвертираме PDF в текст в Java заедно с кодовия фрагмент. Ако искате да научите процеса на конвертиране на PDF в Word, вижте статията на как да конвертирате PDF в Word в Java.