Extrahujte text z dokumentu Word v Javě

Jeden může Extrahovat Text z dokumentu Word v Javě odkazem na tento jednoduchý článek. Zahrnuje požadované kroky k nastavení vývojového prostředí, postupný pracovní postup programu a běžící ukázkový kód pro převod DOCX na TXT v Javě. Vyvinutá aplikace může být použita v jakémkoli prostředí s podporou Java v Linuxu, MS Windows nebo macOS.

Kroky k vývoji Word to TXT Converter pomocí Java

  1. Nakonfigurujte prostředí instalací Aspose.Words for Java ze správce úložiště pro převod souboru DOCX na soubor TXT pomocí Java
  2. Otevřete zdrojový dokument aplikace Word vytvořením instance třídy Document pro převod souborů Word na TXT
  3. Vytvořte objekt třídy TxtSaveOptions pro nastavení požadovaných vlastností výstupního souboru TXT
  4. Uložte načtený soubor DOCX jako soubor TXT na disk pomocí metody uložení

Tyto přesné kroky v Java extrahují text z dokumentu Word pomocí jednoduchého rozhraní API. Nejprve načteme zdrojový soubor DOCX z disku pomocí instance třídy Document, poté následuje nastavení požadovaných možností exportu výstupního TXT souboru pomocí instance třídy TxtSaveOptions. Nakonec se otevřený dokument aplikace Word uloží jako soubor TXT na disk pomocí metody uložení.

Kód pro převod DOCX na TXT v Javě

Pro přístup ke zdrojovému DOCX z disku a extrakce textu z dokumentu Word bylo ve výše uvedeném příkladu kódu použito API založené na Java. Je možné uložit soubor TXT na disk, aniž byste se spoléhali na volitelnou instanci třídy TxtSaveOptions. Pokud však chcete upravit požadovaný soubor TXT, můžete použít různé metody setter vystavené třídou TxtSaveOptions včetně setEncoding(), setForcePageBreaks(), setMaxCharactersPerLine(), setParagraphBreak() a setPrettyFormat(), abychom jmenovali alespoň některé.

Tento článek nás poučil, abychom vyvinuli převodník z Wordu na TXT pomocí Javy. Máte-li zájem o srovnání dokumentů aplikace Word, přečtěte si článek na Porovnejte dokumenty Word pomocí Javy.

 Čeština