Ինչպես կարդալ Word փաստաթուղթը Java-ում

Այս հակիրճ ձեռնարկը ներկայացնում է տեղեկատվություն ինչպես կարդալ Word փաստաթուղթը Java-ում՝ տրամադրելով մանրամասն քայլ առ քայլ ընթացակարգ և գործարկվող Java կոդ, որը կարդում է նմուշ փաստաթուղթը տարբեր ձևերով: Այն ներկայացնում է անհրաժեշտ դասերը, որոնք օգտագործվում են Word ֆայլը կարդալու և դրա տարբեր հատվածներ մուտք գործելու համար: Մինչ ** կարդում եք Word փաստաթուղթը Java կոդով**, ինչպիսիք են DOCX, DOC կամ MS Word-ի աջակցվող այլ ֆայլեր, դուք կկրկնեք փաստաթղթի տարբեր զավակային հանգույցների միջով և յուրաքանչյուրը կմշակեք ըստ ձեր պահանջի:

Java-ում Word ֆայլը կարդալու քայլեր

  1. Տեղադրեք Aspose.Words for Java՝ օգտագործելով Maven պահոցը՝ DOCX ֆայլը կարդալու համար
  2. Ներբեռնեք սկզբնաղբյուր DOCX ֆայլը Document դասի օբյեկտում՝ Java-ում կարդալու համար
  3. Կրկնել փաստաթղթի բոլոր Paragraph տեսակի հանգույցների միջով
  4. Յուրաքանչյուր պարբերության տեքստը փոխարկեք տողի և ցուցադրեք այն վահանակի վրա
  5. Կրկնել փաստաթղթի բոլոր Run տիպի հանգույցների միջով
  6. Յուրաքանչյուր հանգույց փոխարկեք Run տեսակի և մուտք գործեք Run-ի տառատեսակի անվանումը, չափը և տեքստը
  7. Ցուցադրել յուրաքանչյուր գործարկվող տեքստ վահանակի վրա

Այս քայլերը նկարագրում են ինչպես կարդալ Word ֆայլը Java-ում՝ կիսելով կոնֆիգուրացիայի էջի հղումը և այնուհետև ուղղորդելով բեռնել աղբյուր Word փաստաթուղթը: Երբ Word ֆայլը բեռնվում է, դրա փաստաթղթի օբյեկտի մոդելը (DOM), այսինքն՝ տրամաբանական կառուցվածքը նույնպես բեռնվում է և կարող է վերլուծվել տարբեր ձևերով: Այս քայլերը օգնում են պատրաստել երկու հիմնական հավաքածուներ, որոնք են Պարբերություններ և Գործարկումներ՝ բեռնված Word փաստաթղթի տարբեր մասեր մուտք գործելու համար:

Կոդ՝ Java-ում DOCX ֆայլը կարդալու համար

Այս Java կոդը՝ Word փաստաթուղթը կարդալու համար ցույց է տալիս DOM-ի վերլուծությունը՝ օգտագործելով տարբեր զտիչներ, օրինակ՝ առաջին հերթին մենք վերցնում ենք պարբերության բոլոր հանգույցները: Paragraph դասը տրամադրում է toString() ֆունկցիան, որը հանում է տեքստը ամբողջ պարբերությունից՝ ներառյալ Աղյուսակները և այլն, և պահպանում այն տողային փոփոխականում: Նմանապես, երբ մենք վերլուծում ենք փաստաթուղթը բոլոր Գործարկումները վերցնելու համար, այն առանձնացնում է բովանդակությունը՝ հիմնվելով դրանց ոճի, տառատեսակի, հանգույցի տեսակի և այլնի վրա և մեկ պարբերություն բաժանում է մի քանի հատվածների՝ հիմնվելով տեքստի տառատեսակի ոճի վրա, ինչպես թավ տեքստը կտրամադրվի առանձին՝ շեղ: տեքստը առանձին և այլն:

Այս ձեռնարկը մեզ ուղղորդել է կարդալ DOCX ֆայլը, սակայն, եթե ցանկանում եք ինչ-որ ձևափոխում, օրինակ՝ Word-ի PDF-ի, տես ինչպես փոխարկել Word-ը PDF-ի Java-ում-ի հոդվածը:

 Հայերեն