Ten krótki samouczek zawiera informacje na temat jak czytać dokument programu Word w języku Java, przedstawiając szczegółową procedurę krok po kroku i uruchamialny kod Java, który odczytuje przykładowy dokument na różne sposoby. Wprowadza niezbędne klasy, które są używane do odczytywania pliku Word i uzyskiwania dostępu do jego różnych segmentów. Podczas czytania dokumentu programu Word w kodzie Java, takiego jak DOCX, DOC lub innych plików obsługiwanych przez MS Word, będziesz przeglądać różne węzły potomne dokumentu i przetwarzać każdy z nich zgodnie z wymaganiami.
Kroki, aby odczytać plik Word w Javie
- Zainstaluj Aspose.Words for Java przy użyciu repozytorium Maven, aby odczytać plik DOCX
- Załaduj źródłowy plik DOCX do obiektu klasy Document do odczytu w Javie
- Przejrzyj wszystkie węzły typu Paragraph w dokumencie
- Konwertuj tekst każdego akapitu na ciąg znaków i wyświetlaj go w konsoli
- Wykonaj iterację przez wszystkie węzły typu Run w dokumencie
- Konwertuj każdy węzeł na typ Run i uzyskaj dostęp do nazwy czcionki, rozmiaru i tekstu Run
- Wyświetl każdy tekst uruchomienia na konsoli
Te kroki opisują jak czytać plik Worda w Javie poprzez udostępnienie linku do strony konfiguracyjnej, a następnie prowadzenie do załadowania źródłowego dokumentu Worda. Po załadowaniu pliku Word, jego obiektowy model dokumentu (DOM), tj. struktura logiczna, jest również ładowany i może być analizowany na różne sposoby. Te kroki pomagają w przygotowaniu dwóch głównych kolekcji, którymi są akapity i przebiegi, aby uzyskać dostęp do różnych części załadowanego dokumentu programu Word.
Kod do odczytu pliku DOCX w Javie
package word_articles; | |
import com.aspose.words.Document; | |
import com.aspose.words.Font; | |
import com.aspose.words.License; | |
import com.aspose.words.NodeType; | |
import com.aspose.words.Paragraph; | |
import com.aspose.words.Run; | |
import com.aspose.words.SaveFormat; | |
public class ReadWordDocumentInJava { | |
public static void main(String[] args) throws Exception {// Main function to read Word file in Java | |
// Create a license object to avoid limitations of the trial version | |
// while reading the Word file | |
License licWordToPdf = new License(); | |
licWordToPdf.setLicense("Aspose.Words.lic"); | |
// Load the source Word file to be read | |
Document doc = new Document("input.docx"); | |
// Read all the paragraph in the document and display its contents | |
for (Object obj : doc.getChildNodes(NodeType.PARAGRAPH, true)) | |
{ | |
Paragraph para = (Paragraph)obj; | |
System.out.println(para.toString(SaveFormat.TEXT)); | |
} | |
// Read all the Runs in the document and display style and text | |
for (Object obj : doc.getChildNodes(NodeType.RUN, true)) | |
{ | |
Run run = (Run)obj; | |
Font font = run.getFont(); | |
System.out.println(font.getName() + "," + font.getSize()); | |
System.out.println(run.getText()); | |
} | |
System.out.println("Done"); | |
} | |
} |
Ten kod Java do odczytu dokumentu Worda demonstruje parsowanie DOM przy użyciu różnych filtrów, np. w pierwszej kolejności pobieramy wszystkie węzły akapitów. Klasa Paragraph udostępnia funkcję toString(), która wyodrębnia tekst z całego akapitu, w tym tabel itp., i zapisuje go w zmiennej łańcuchowej. Podobnie, gdy analizujemy dokument w celu pobrania wszystkich przebiegów, oddziela on zawartość w oparciu o ich styl, czcionkę, typ węzła itp. i dzieli pojedynczy akapit na wiele segmentów w oparciu o styl czcionki tekstu, np. tekst pogrubiony zostanie dostarczony osobno, kursywa tekst osobno i tak dalej.
Ten samouczek poprowadził nas do odczytania pliku DOCX, jednak jeśli chcesz jakiejś konwersji, takiej jak Word do PDF, zapoznaj się z artykułem na temat jak przekonwertować Worda na PDF w Javie.