Izdvojite tekst iz Word dokumenta u Pythonu

Koristeći ovaj primjer, naučit ćete kako ekstrahirati Text iz Word dokumenta u Pythonu. Također pruža informacije za konfiguriranje razvojnog okruženja pridržavajući se tijeka rada korak po korak i primjer koda za razvoj pretvarača Word u TXT pomoću Pythona. Ova se aplikacija može integrirati u bilo koje okruženje koje podržava Python i .NET framework u sustavu Windows, Linux ili macOS.

Koraci za izdvajanje teksta iz Word dokumenta u Pythonu

  1. Uspostavite okruženje instaliranjem Aspose.Words za Python putem .NET-a za pretvaranje DOCX datoteke u TXT datoteku pomoću Pythona
  2. Korištenjem instance klase Document pristupite izvornoj Word DOCX datoteci
  3. Koristite instancu objekta klase TxtSaveOptions za postavljanje potrebnih svojstava
  4. Pretvorite učitani Word dokument u TXT datoteku pomoću metode spremanja

Ovi precizni koraci u Pythonu izdvajaju tekst iz DOCX datoteke pomoću vrlo jednostavnog API sučelja. Proces će započeti pristupom izvornoj DOCX datoteci s diska pomoću instance klase Document, nakon čega slijedi postavljanje željenih svojstava izlazne TXT datoteke pomoću objekta klase TxtSaveOptions. Na kraju, učitana datoteka Word dokumenta sprema se kao TXT datoteka na disk pomoću metode spremanja.

Kod za pretvaranje DOCX u TXT u Pythonu

import aspose.words as aw
import io
# Path to the source files
filePath = "Y:////KB//TestData//"
# Load the Aspose.Words license in your application to convert DOCX to TXT
wordtoTxtLicense = aw.License()
wordtoTxtLicense.set_license(filePath + "Conholdate.Total.Product.Family.lic")
# Use the Document class object to access the source DOCX file
srcDocument = aw.Document(filePath + "Test1.docx")
#Optional Text saving options
txtOpts = aw.saving.TxtSaveOptions()
txtOpts.max_characters_per_line = 100
txtOpts.save_format = aw.SaveFormat.TEXT
txtOpts.pretty_format = True
srcDocument.save(filePath + "ExtractedText.txt", txtOpts);
print ("Document converted to TXT successfully")

Primjer pokazuje mogućnost API-ja za konvertiranje DOCX u TXT u Pythonu. Korištenje instance klase TxtSaveOptions nije obavezno i možete spremiti TXT datoteku koristeći zadane opcije. Međutim, ako želite prilagoditi izlaznu TXT datoteku, možete koristiti različita svojstva izložena u klasi TxtSaveOptions uključujući postavljanje kodiranja, force_page_breaks, max_characters_per_line, paragraph_break i pretty_format da spomenemo samo neke.

U ovom smo članku saznali da za izdvajanje teksta iz DOCX Python temeljen API može biti dobar izbor. Ako želite naučiti uspoređivati PDF dokumente, pogledajte članak na Usporedite PDF dokumente pomoću Pythona.

 Hrvatski