Extraheer tekst uit een Word-document in Java

U kunt {HYPERLINK1}} extraheren uit een Word-document in Java door dit eenvoudige artikel te raadplegen. Het bevat de vereiste stappen voor het opzetten van de ontwikkelomgeving, een stapsgewijze programmaworkflow en een lopende voorbeeldcode om {HYPERLINK2}} naar TXT in Java te converteren. De ontwikkelde applicatie kan worden gebruikt in elke Java-ondersteunde omgeving in Linux, MS Windows of macOS.

Stappen om Word naar TXT Converter te ontwikkelen met behulp van Java

  1. Configureer de omgeving door Aspose.Words for Java vanuit de repositorymanager te installeren om een DOCX-bestand naar een TXT-bestand te converteren met behulp van Java
  2. Open het Word-brondocument door een exemplaar van de klasse Document te maken voor de conversie van Word naar TXT-bestanden
  3. Maak een klasseobject TxtSaveOptions om de vereiste TXT-uitvoerbestandseigenschappen in te stellen
  4. Sla het geladen DOCX-bestand op als TXT-bestand op de schijf met behulp van de opslagmethode

Deze precieze stappen in Java extraheren tekst uit een Word-document met behulp van een eenvoudige API-interface. Eerst laden we het bron-DOCX-bestand van de schijf met behulp van een exemplaar van de Document-klasse, gevolgd door het instellen van de gewenste uitvoeropties voor het TXT-bestand met behulp van een exemplaar van de TxtSaveOptions-klasse. Ten slotte wordt het geopende Word-document met behulp van de opslagmethode als TXT-bestand op de schijf opgeslagen.

Code om DOCX naar TXT in Java te converteren

Om toegang te krijgen tot de bron-DOCX vanaf schijf en tekst uit Word-document te extraheren, is in het bovengenoemde codevoorbeeld een op Java gebaseerde API gebruikt. Men kan een TXT-bestand op de schijf opslaan zonder afhankelijk te zijn van de optionele klasse-instantie TxtSaveOptions. Als u echter het gewenste TXT-bestand wilt aanpassen, kunt u verschillende settermethoden gebruiken die worden weergegeven door de klasse TxtSaveOptions, waaronder setEncoding(), setForcePageBreaks(), setMaxCharactersPerLine(), setParagraphBreak() en setPrettyFormat() om er maar een paar te noemen.

Dit artikel heeft ons geholpen een Word naar TXT-converter te ontwikkelen met behulp van Java. Als u geïnteresseerd bent in het vergelijken van Word-documenten, raadpleeg dan het artikel op Vergelijk Word-documenten met Java.

 Nederlands