Extrahera text från Word-dokument i Java

Man kan Extrahera Text från Word-dokument i Java genom att hänvisa till denna enkla artikel. Den innehåller de nödvändiga stegen för att ställa in utvecklingsmiljön, stegvis programarbetsflöde och en körande exempelkod för att konvertera DOCX till TXT i Java. Den utvecklade applikationen kan användas i alla Java-stödda miljöer i Linux, MS Windows eller macOS.

Steg för att utveckla Word to TXT Converter med Java

  1. Konfigurera miljön genom att installera Aspose.Words for Java från arkivhanteraren för att konvertera en DOCX-fil till en TXT-fil med Java
  2. Öppna Word-källdokumentet genom att skapa en instans av klassen Document för konvertering av Word till TXT-fil
  3. Skapa ett TxtSaveOptions-klassobjekt för att ställa in de nödvändiga TXT-filegenskaperna
  4. Spara den laddade DOCX-filen som TXT-fil på disken med hjälp av sparmetoden

Dessa exakta steg i Java extraherar text från Word-dokument med ett enkelt API-gränssnitt. Först kommer vi att ladda käll-DOCX-filen från disken med en instans av klassen Document, som sedan följs av att ställa in önskade exportalternativ för TXT-fil för utdata med en instans av klassen TxtSaveOptions. Slutligen sparas det öppnade Word-dokumentet som en TXT-fil på disken med hjälp av sparmetoden.

Kod för att konvertera DOCX till TXT i Java

För att komma åt käll-DOCX från disk och extrahera text från Word-dokument Java-baserat API har använts i ovannämnda kodexempel. Man kan spara en TXT-fil på disken utan att förlita sig på den valfria TxtSaveOptions-klassinstansen. Men om du vill anpassa den önskade TXT-filen kan du använda olika sättermetoder som exponeras av klassen TxtSaveOptions inklusive setEncoding(), setForcePageBreaks(), setMaxCharactersPerLine(), setParagraphBreak() och setPrettyFormat() för att nämna några.

Den här artikeln har upplyst oss om att utveckla en Word to TXT-konverterare med Java. Om du är intresserad av att jämföra Word-dokument, se artikeln om Jämför Word-dokument med Java.

 Svenska