Extrahera text från Word-dokument i Python

Genom att använda det här exemplet kommer du att lära dig hur du extraherar Text från Word-dokument i Python. Den tillhandahåller också information för att konfigurera utvecklingsmiljön genom att följa ett steg-för-steg-arbetsflöde och en exempelkod för att utveckla en Word till TXT-omvandlare med Python. Denna applikation kan integreras i alla miljöer som stöder Python och .NET-ramverket i Windows, Linux eller macOS.

Steg för att extrahera text från Word-dokument i Python

  1. Etablera miljön genom att installera Aspose.Words för Python via .NET för att konvertera DOCX-fil till en TXT-fil med Python
  2. Genom att använda en instans av klassen Document får du tillgång till Word DOCX-källfilen
  3. Använd en TxtSaveOptions klassobjektinstans för att ställa in de nödvändiga egenskaperna
  4. Konvertera det laddade Word-dokumentet till en TXT-fil med hjälp av sparmetoden

Dessa exakta steg i Python extraherar text från DOCX-filen med ett mycket enkelt API-gränssnitt. Processen kommer att börja med att komma åt käll-DOCX-filen från disken med en instans av klassen Document, som sedan följs av att ställa in önskade TXT-utdatafilegenskaper med hjälp av klassobjektet TxtSaveOptions. Slutligen sparas den laddade Word-dokumentfilen som en TXT-fil på disken med hjälp av sparmetoden.

Kod för att konvertera DOCX till TXT i Python

import aspose.words as aw
import io
# Path to the source files
filePath = "Y:////KB//TestData//"
# Load the Aspose.Words license in your application to convert DOCX to TXT
wordtoTxtLicense = aw.License()
wordtoTxtLicense.set_license(filePath + "Conholdate.Total.Product.Family.lic")
# Use the Document class object to access the source DOCX file
srcDocument = aw.Document(filePath + "Test1.docx")
#Optional Text saving options
txtOpts = aw.saving.TxtSaveOptions()
txtOpts.max_characters_per_line = 100
txtOpts.save_format = aw.SaveFormat.TEXT
txtOpts.pretty_format = True
srcDocument.save(filePath + "ExtractedText.txt", txtOpts);
print ("Document converted to TXT successfully")

Exemplet visar API-förmågan att konvertera DOCX till TXT i Python. Att använda klassinstansen TxtSaveOptions är valfritt och du kan spara TXT-filen med standardalternativen. Men om du vill anpassa TXT-utdatafilen kan du använda olika egenskaper som exponeras av klassen TxtSaveOptions inklusive inställningskodning, force_page_breaks, max_characters_per_line, paragraph_break och pretty_format för att nämna några.

I den här artikeln har vi lärt oss att det kan vara ett bra val för att extrahera text från DOCX Python baserat API. Om du vill lära dig att jämföra PDF-dokument, se artikeln om Jämför PDF-dokument med Python.

 Svenska