Bu kısa eğitim, ayrıntılı bir adım adım prosedür ve örnek belgeyi farklı şekillerde okuyan çalıştırılabilir bir Java kodu sağlayarak Java’da Word belgesinin nasıl okunacağı hakkında bilgi sunar. Bir Word dosyasını okumak ve farklı bölümlerine erişmek için kullanılan gerekli sınıfları tanıtır. DOCX, DOC veya diğer MS Word destekli dosyalar gibi Java kodunda Word belgesini okurken, belgenin farklı alt düğümlerini yineleyecek ve her birini gereksiniminize göre işleyeceksiniz.
Java’da Word Dosyasını Okuma Adımları
- DOCX dosyasını okumak için Maven deposunu kullanarak Aspose.Words for Java yükleyin
- Java’da okumak için kaynak DOCX dosyasını Document sınıf nesnesine yükleyin
- Belgedeki tüm Paragraph tipi düğümleri yineleyin
- Her paragraf metnini bir dizeye dönüştürün ve konsolda görüntüleyin
- Belgedeki tüm Çalıştır türü düğümlerini yineleyin
- Her düğümü Çalıştır türüne dönüştürün ve Çalıştır’ın yazı tipi adına, boyutuna ve metnine erişin
- Her çalıştırma metnini konsolda görüntüleyin
Bu adımlar, yapılandırma sayfasına bağlantı paylaşarak ve ardından kaynak Word belgesini yüklemek için rehberlik ederek Java’da Word dosyasının nasıl okunacağını açıklar. Word dosyası yüklendikten sonra, belge nesne modeli (DOM) yani mantıksal yapı da yüklenir ve farklı şekillerde ayrıştırılabilir. Bu adımlar, yüklenen Word belgesinin farklı bölümlerine erişmek için Paragraflar ve Çalıştırmalar olmak üzere iki ana koleksiyonun hazırlanmasına yardımcı olur.
Java’da DOCX Dosyasını Okumak İçin Kod
Bu Word belgesini okumak için Java kodu farklı filtreler kullanarak DOM’un ayrıştırılmasını gösterir, örneğin ilk olarak tüm paragraf düğümlerini alırız. Paragraph sınıfı, Tablolar vb. dahil olmak üzere tüm paragraftan metin çıkaran ve onu bir dize değişkenine kaydeden toString() işlevini sağlar. Benzer şekilde, tüm Çalıştırmaları almak için belgeyi ayrıştırdığımızda, içerikleri stillerine, yazı tipine, düğüm türüne vb. göre ayırır ve tek bir paragrafı metin yazı tipi stiline göre birden çok bölüme ayırır, örneğin kalın metin ayrı olarak sağlanacaktır, italik metin ayrı vb.
Bu eğitim bize bir DOCX dosyasını okumamız için rehberlik etti, ancak Word’den PDF’ye bir tür dönüştürme istiyorsanız, Java’da Word’ü PDF’ye dönüştürme makalesine bakın.