Extrahera text från Word-dokument i Python

Genom att använda det här exemplet kommer du att lära dig hur du extraherar Text från Word-dokument i Python. Den tillhandahåller också information för att konfigurera utvecklingsmiljön genom att följa ett steg-för-steg-arbetsflöde och en exempelkod för att utveckla en Word till TXT-omvandlare med Python. Denna applikation kan integreras i alla miljöer som stöder Python och .NET-ramverket i Windows, Linux eller macOS.

Steg för att extrahera text från Word-dokument i Python

  1. Etablera miljön genom att installera Aspose.Words för Python via .NET för att konvertera DOCX-fil till en TXT-fil med Python
  2. Genom att använda en instans av klassen Document får du tillgång till Word DOCX-källfilen
  3. Använd en TxtSaveOptions klassobjektinstans för att ställa in de nödvändiga egenskaperna
  4. Konvertera det laddade Word-dokumentet till en TXT-fil med hjälp av sparmetoden

Dessa exakta steg i Python extraherar text från DOCX-filen med ett mycket enkelt API-gränssnitt. Processen kommer att börja med att komma åt käll-DOCX-filen från disken med en instans av klassen Document, som sedan följs av att ställa in önskade TXT-utdatafilegenskaper med hjälp av klassobjektet TxtSaveOptions. Slutligen sparas den laddade Word-dokumentfilen som en TXT-fil på disken med hjälp av sparmetoden.

Kod för att konvertera DOCX till TXT i Python

Exemplet visar API-förmågan att konvertera DOCX till TXT i Python. Att använda klassinstansen TxtSaveOptions är valfritt och du kan spara TXT-filen med standardalternativen. Men om du vill anpassa TXT-utdatafilen kan du använda olika egenskaper som exponeras av klassen TxtSaveOptions inklusive inställningskodning, force_page_breaks, max_characters_per_line, paragraph_break och pretty_format för att nämna några.

I den här artikeln har vi lärt oss att det kan vara ett bra val för att extrahera text från DOCX Python baserat API. Om du vill lära dig att jämföra PDF-dokument, se artikeln om Jämför PDF-dokument med Python.

 Svenska