Ինչպես փոխարկել HTML-ը տեքստի Java-ում

Այս պարզ թեման այն մասին է, թե ինչպես փոխակերպել HTML-ը Java-ի տեքստի: Java HTML-ում դեպի պարզ տեքստ փոխակերպման հավելված, որն աշխատում է Windows, Linux կամ macOS հարթակներում, կարող է մշակվել՝ օգտագործելով պարզ և հեշտ API միջերեսներ:

Java-ում HTML-ը տեքստի փոխարկելու քայլեր

  1. Կազմաձևեք ձեր նախագիծը, որպեսզի ավելացնեք Aspose.HTML for Java Maven-ի պահոցից
  2. Ձեր հավելվածում ներառեք Aspose.HTML անվանատարածքի հղումը
  3. Կարդացեք աղբյուրի HMTL ֆայլի բովանդակությունը՝ օգտագործելով String օբյեկտը
  4. Նախաձեռնեք HTMLDocument class օբյեկտը` սկզբնաղբյուր HTML տողը բեռնելու համար
  5. Նախաձեռնեք INodeIterator դասի օբյեկտը կրկնվող հանգույցների համար և միացրեք StringBuilder-ում
  6. Պահպանեք HTML-ից հանված տեքստը սկավառակի վրա

HTML Java*-ի վրա հիմնված հավելվածից *տեքստ հանելու համար կարող են օգտագործվել մի քանի տող կոդ: Մենք կսկսենք գործընթացը՝ բեռնելով աղբյուրի HTML-ը String օբյեկտի մեջ և այնուհետև բեռնելով այդ տողը՝ օգտագործելով HTMLDocument դասը: Այնուհետև մենք կօգտագործենք INodeIterator՝ հանելու, անցնելու և HMTL հանգույցները StringBuilder-ին միացնելու համար: Վերջապես, StringBuilder-ը կպահվի որպես պարզ տեքստային ֆայլ սկավառակի վրա:

Կոդ՝ Java-ում HTML-ը տեքստի փոխակերպելու համար

Վերոնշյալ օրինակը Java-ում փոխակերպում է HTML-ը պարզ տեքստի API-ի մի քանի զանգերում: Մենք ստեղծել ենք StyleFilter դասը, որը ընդլայնում է NodeFilter դասը և իրականացնում է AcceptNode մեթոդը՝ հաճախորդի հանգույցների զտիչները սահմանելու և փոխակերպման գործընթացում HTML-ից անցանկալի հանգույցները բաց թողնելու համար։

Այս թեմայում մենք ուսումնասիրել ենք ինչպես հանել տեքստը HTML-ից Java-ում: Եթե դուք հետաքրքրված եք MD ֆայլի XPS ձևաչափի փոխակերպմամբ, անցեք թեմային՝ ինչպես անել փոխարկել Markdown-ը XPS-ի Java-ի միջոցով:

 Հայերեն