Python'da Word Belgesinden Metin Çıkarma

Bu örneği kullanarak Python’da Text dosyasını Word belgesinden nasıl çıkaracağınızı öğreneceksiniz. Ayrıca, adım adım iş akışına bağlı kalarak geliştirme ortamını yapılandırmak için gerekli bilgileri ve Python** kullanarak bir **Word - TXT dönüştürücüsü geliştirmek için bir örnek kod sağlar. Bu uygulama, Windows, Linux veya macOS’ta Python’u ve .NET çerçevesini destekleyen herhangi bir ortama entegre edilebilir.

Python’da Word Belgesinden Metin Çıkarma Adımları

  1. Python kullanarak DOCX dosyasını TXT dosyasına dönüştürmek için .NET aracılığıyla Aspose.Words for Python‘ı yükleyerek ortamı oluşturun
  2. Document sınıfının bir örneğini kullanarak kaynak Word DOCX dosyasına erişin
  3. Gerekli özellikleri ayarlamak için bir TxtSaveOptions sınıfı nesne örneği kullanın
  4. Yüklenen Word belgesini kaydetme yöntemini kullanarak bir TXT dosyasına dönüştürün

Python’daki bu hassas adımlar, çok basit bir API arayüzü kullanarak DOCX dosyasından metin çıkarır. İşlem, Document sınıfının bir örneğini kullanarak diskten kaynak DOCX dosyasına erişilerek başlayacak ve ardından TxtSaveOptions sınıf nesnesi kullanılarak istenen çıktı TXT dosyası özellikleri ayarlanacaktır. Son olarak yüklenen Word belgesi dosyası, save yöntemi kullanılarak diske TXT dosyası olarak kaydedilir.

Python’da DOCX’i TXT’ye Dönüştürme Kodu

import aspose.words as aw
import io
# Path to the source files
filePath = "Y:////KB//TestData//"
# Load the Aspose.Words license in your application to convert DOCX to TXT
wordtoTxtLicense = aw.License()
wordtoTxtLicense.set_license(filePath + "Conholdate.Total.Product.Family.lic")
# Use the Document class object to access the source DOCX file
srcDocument = aw.Document(filePath + "Test1.docx")
#Optional Text saving options
txtOpts = aw.saving.TxtSaveOptions()
txtOpts.max_characters_per_line = 100
txtOpts.save_format = aw.SaveFormat.TEXT
txtOpts.pretty_format = True
srcDocument.save(filePath + "ExtractedText.txt", txtOpts);
print ("Document converted to TXT successfully")

Örnek, API’nin Python’da DOCX’i TXT’ye dönüştürme yeteneğini göstermektedir. TxtSaveOptions sınıfı örneğinin kullanılması isteğe bağlıdır ve TXT dosyasını varsayılan seçenekleri kullanarak kaydedebilirsiniz. Bununla birlikte, çıktı TXT dosyasını özelleştirmek istiyorsanız, TxtSaveOptions sınıfı tarafından sunulan, birkaçını saymak gerekirse kodlama ayarı,force_page_breaks, max_characters_per_line, paragraf_break ve Pretty_format gibi farklı özellikleri kullanabilirsiniz.

Bu makalede, DOCX’ten Metin çıkarmak için Python tabanlı API’nin iyi bir seçim olabileceğini öğrendik. PDF belgelerini karşılaştırmayı öğrenmek istiyorsanız Python kullanarak PDF Belgelerini Karşılaştırın adresindeki makaleye bakın.

 Türkçe