Քաղեք տեքստ Word փաստաթղթից Java-ում

Կարելի է հանել Text-ը Java-ի Word փաստաթղթից՝ հղում կատարելով այս պարզ հոդվածին: Այն ներառում է մշակման միջավայրը կարգավորելու համար անհրաժեշտ քայլերը, ծրագրի փուլային աշխատանքային հոսքը և գործարկվող կոդ՝ DOCX-ը Java-ով TXT-ի փոխարկելու համար: Մշակված հավելվածը կարող է օգտագործվել ցանկացած Java-ով աջակցվող միջավայրում Linux-ում, MS Windows-ում կամ macOS-ում:

Java-ի միջոցով Word-ի TXT փոխարկիչ մշակելու քայլեր

  1. Կազմաձևեք միջավայրը՝ տեղադրելով Aspose.Words for Java-ը պահեստի կառավարիչից՝ Java-ի միջոցով DOCX ֆայլը TXT ֆայլի փոխարկելու համար։
  2. Բացեք Word-ի սկզբնաղբյուր փաստաթուղթը՝ ստեղծելով Document դասի օրինակ՝ Word-ի TXT ֆայլի փոխակերպման համար։
  3. Ստեղծեք TxtSaveOptions դասի օբյեկտ՝ պահանջվող ելքային TXT ֆայլի հատկությունները սահմանելու համար
  4. Պահպանեք բեռնված DOCX ֆայլը որպես TXT ֆայլ սկավառակի վրա՝ օգտագործելով պահպանման մեթոդը

Java-ի այս ճշգրիտ քայլերը Word Document-ից հանում են տեքստ՝ օգտագործելով պարզ API ինտերֆեյս: Նախ, մենք կբեռնենք աղբյուրի DOCX ֆայլը սկավառակից՝ օգտագործելով Document դասի օրինակը, որին հաջորդում է ելքային TXT ֆայլի արտահանման ցանկալի ընտրանքները՝ օգտագործելով TxtSaveOptions դասի օրինակը: Վերջապես, բացված Word փաստաթուղթը պահվում է որպես TXT ֆայլ սկավառակի վրա՝ օգտագործելով պահպանման մեթոդը:

Կոդ՝ Java-ում DOCX-ը TXT-ի փոխարկելու համար

import com.aspose.words.Document;
import com.aspose.words.License;
import com.aspose.words.SaveFormat;
import com.aspose.words.TxtSaveOptions;
public class HowToConvertWordToText {
public static void main(String[] args) throws Exception { //main function for How To Convert Word to Text in Java
String path= "/Users/Documents/KnowledgeBase/TestData/";
// Applying product license extract text from DOCX
License WordToTextLic = new License();
WordToTextLic.setLicense(path + "Conholdate.Total.Product.Family.lic");
// Load the source DOCX for text conversion
Document sourceWordDoc = new Document(path+"Test1.docx");
// Optional Text saving options
TxtSaveOptions txtOpts = new TxtSaveOptions();
txtOpts.setMaxCharactersPerLine(100);
txtOpts.setSaveFormat(SaveFormat.TEXT);
txtOpts.setPrettyFormat(true);
// Convert Word to Text
sourceWordDoc.save(path + "ExtractedText.txt", txtOpts);
System.out.println("Done");
}
}

Աղբյուր DOCX-ը սկավառակից մուտք գործելու և * Word Document-ից տեքստ հանելու համար վերը նշված կոդի օրինակում օգտագործվել է Java* վրա հիմնված API: Կարելի է պահպանել TXT ֆայլը սկավառակի վրա՝ առանց հենվելու կամընտիր TxtSaveOptions դասի օրինակին: Այնուամենայնիվ, եթե ցանկանում եք հարմարեցնել ցանկալի TXT ֆայլը, կարող եք օգտագործել TxtSaveOptions դասի կողմից ներկայացված սեթերի տարբեր մեթոդներ, ներառյալ setEncoding(), setForcePageBreaks(), setMaxCharactersPerLine(), setParagraphBreak() և setPrettyFormat()՝ նշելու համար մի քանիսը:

Այս հոդվածը մեզ լուսավորել է զարգացնել Բառից դեպի TXT փոխարկիչ Java-ի միջոցով: Եթե ցանկանում եք համեմատել Word փաստաթղթերը, տես Համեմատեք Word փաստաթղթերը Java-ի միջոցով-ի հոդվածը:

 Հայերեն