Այս ձեռնարկը մանրամասներ է տալիս այն մասին, թե ինչպես կարդալ PDF աղյուսակը Java-ում և մուտք գործել ցանկալի աղյուսակի յուրաքանչյուր բջիջին պատկանող տեքստ: Դուք կունենաք լիակատար վերահսկողություն PDF-ի նպատակային էջի որոշակի աղյուսակին հղում կատարելու և բոլոր տողերի և բջիջների միջով վերլուծելու համար՝ տվյալներն առբերելու համար: Այս PDF աղյուսակի ընթերցիչը Java գրելու համար ոչ մի այլ երրորդ կողմի գործիք կամ ծրագրակազմ չի պահանջվում:
Java-ում PDF աղյուսակը կարդալու քայլեր
- Կազմաձևեք ձեր PDF աղյուսակ ընթերցող հավելվածը՝ Maven-ի պահոցից Aspose.PDF ավելացնելու համար
- Բեռնեք PDF ֆայլի նմուշը, որը պարունակում է աղյուսակ՝ օգտագործելով Document դասի օբյեկտը
- Ստուգեք և սկզբնավորեք TableAbsorber օբյեկտը` բոլոր PDF աղյուսակները ընտրված PDF էջից վերցնելու համար
- Կրկնեք ցանկալի աղյուսակի բոլոր տողերը
- Կրկնեք ցանկալի տողի բոլոր բջիջների միջով և բեռնեք տեքստի բոլոր հատվածները յուրաքանչյուր բջիջից
- Ցուցադրել բջիջից բերված տեքստը
Այս քայլերը բացատրում են, թե ինչպես օգտագործել Java-ի արդյունահանման աղյուսակը PDF-ից, ինչպես նաև անհրաժեշտ գրադարանների մասին տեղեկություններ, որոնք պետք է ավելացվեն նախագծին: Այն նաև նշում է առաջադրանքն ավարտելու գործողությունների կարգը, օրինակ՝ նախ բեռնել PDF-ը, այնուհետև մուտք գործել որոշակի էջ և ստանալ ցանկալի աղյուսակը: Վերջապես, վերլուծեք բոլոր տողերն ու բջիջները՝ տեղեկատվություն ստանալու համար:
Կոդ՝ Java-ում PDF աղյուսակը կարդալու համար
import com.aspose.pdf.License; | |
import com.aspose.pdf.AbsorbedCell; | |
import com.aspose.pdf.AbsorbedRow; | |
import com.aspose.pdf.AbsorbedTable; | |
import com.aspose.pdf.Document; | |
import com.aspose.pdf.TableAbsorber; | |
import com.aspose.pdf.TextFragmentCollection; | |
public class ReadPDFTableInJava { | |
public static void main(String[] args) throws Exception { // main function for reading PDF table data in ReadPDFTableInJava | |
// For avoiding the trial version limitation, load the Aspose.PDF license prior to reading table data | |
License licenseForHtmlToPdf = new License(); | |
licenseForHtmlToPdf.setLicense("Aspose.Pdf.lic"); | |
// Load a source PDF document which contains a table in it | |
Document pdfDocument = new Document("PdfWithTable.pdf"); | |
// Instantiate the TableAbsorber object for PDF tables extraction | |
TableAbsorber tableAbsorber = new TableAbsorber(); | |
// visit the table collection in the input PDF | |
tableAbsorber.visit(pdfDocument.getPages().get_Item(1)); | |
// Access the desired table from the tables collection | |
AbsorbedTable absorbedTable = tableAbsorber.getTableList().get(0); | |
// Parse all the rows and get each row using the AbsorbedRow | |
for (AbsorbedRow pdfTableRow : absorbedTable.getRowList()) | |
{ | |
// Access each cell in the cells collection using AbsorbedCell | |
for (AbsorbedCell pdfTableCell : pdfTableRow.getCellList()) | |
{ | |
// Access each text fragment from the cell | |
TextFragmentCollection textFragmentCollection = pdfTableCell.getTextFragments(); | |
// Access each text fragment from the fragments collection | |
for (com.aspose.pdf.TextFragment textFragment : textFragmentCollection) | |
{ | |
// Display the table cell text | |
System.out.println(textFragment.getText()); | |
} | |
} | |
} | |
System.out.println("Done"); | |
} | |
} |
PDF-ից աղյուսակ հանելու համար Java* կոդը տրամադրվում է այստեղ, որն օգտագործում է TableAbsorber և AbsorbedTable դասերը PDF աղյուսակները մշակելու համար: Այն նաև օգտագործում է AbsorbedRow և AbsorbedCell դասեր՝ տողերն ու սյունակները կառավարելու համար, նախքան բջջային տվյալների առբերման համար TextFragment դասը օգտագործելը: Բացի այդ, կան բազմաթիվ այլ կլանիչների դասեր, որոնք հասանելի են փաստաթղթի տարբեր տարրերի համար, ինչպիսիք են տառատեսակները, պարբերությունները, տեքստը և տեքստի հատվածները:
Այս հոդվածում նկարագրված է, որ օգտագործելով Java PDF աղյուսակի արդյունահանումը կարող է իրականացվել մի քանի քայլով: Եթե ցանկանում եք սովորել, թե ինչպես կարդալ տեքստը և պատկերները PDF ֆայլից, տես ինչպես կարդալ PDF ֆայլը Java-ում-ի հոդվածը: