Ez az oktatóanyag részletesen ismerteti, hogyan lehet olvasni PDF-táblázatot Java nyelven, és hozzáférni a kívánt táblázat egyes celláihoz tartozó szövegekhez. Teljes ellenőrzése alatt áll, hogy egy adott táblázatra hivatkozzon a PDF céloldalán, és elemezze az összes sort és cellát az adatok lekéréséhez. Ennek a PDF táblázatolvasónak a Java nyelven történő megírásához nincs szükség harmadik féltől származó eszközre vagy szoftverre.
A PDF-tábla olvasásának lépései Java nyelven
- Konfigurálja a PDF-táblaolvasó alkalmazást a(z) Aspose.PDF hozzáadásához a Maven tárolóból
- Töltse be a táblázatot tartalmazó minta PDF-fájlt a Document osztályobjektum segítségével
- Példányosítsa és inicializálja a TableAbsorber objektumot az összes PDF-tábla lekéréséhez a kiválasztott PDF-oldalról
- Ismételje meg a kívánt táblázat összes sorát
- Iteráljon végig a kívánt sor összes celláján, és minden cellából kérje le az összes szövegrészletet
- Jelenítse meg a cellából lekért szöveget
Ezek a lépések elmagyarázzák a Java kivonat tábla PDF-ből használatát, valamint a projekthez hozzáadandó szükséges könyvtárakra vonatkozó információkat. Megadja a műveletek sorrendjét is a feladat végrehajtásához, például először töltse be a PDF-fájlt, majd egy adott oldalt ér el, és lekéri a kívánt táblázatot. Végül elemezze át az összes sort és cellát, hogy megkapja az információt.
Kód PDF-táblázat olvasásához Java nyelven
import com.aspose.pdf.License; | |
import com.aspose.pdf.AbsorbedCell; | |
import com.aspose.pdf.AbsorbedRow; | |
import com.aspose.pdf.AbsorbedTable; | |
import com.aspose.pdf.Document; | |
import com.aspose.pdf.TableAbsorber; | |
import com.aspose.pdf.TextFragmentCollection; | |
public class ReadPDFTableInJava { | |
public static void main(String[] args) throws Exception { // main function for reading PDF table data in ReadPDFTableInJava | |
// For avoiding the trial version limitation, load the Aspose.PDF license prior to reading table data | |
License licenseForHtmlToPdf = new License(); | |
licenseForHtmlToPdf.setLicense("Aspose.Pdf.lic"); | |
// Load a source PDF document which contains a table in it | |
Document pdfDocument = new Document("PdfWithTable.pdf"); | |
// Instantiate the TableAbsorber object for PDF tables extraction | |
TableAbsorber tableAbsorber = new TableAbsorber(); | |
// visit the table collection in the input PDF | |
tableAbsorber.visit(pdfDocument.getPages().get_Item(1)); | |
// Access the desired table from the tables collection | |
AbsorbedTable absorbedTable = tableAbsorber.getTableList().get(0); | |
// Parse all the rows and get each row using the AbsorbedRow | |
for (AbsorbedRow pdfTableRow : absorbedTable.getRowList()) | |
{ | |
// Access each cell in the cells collection using AbsorbedCell | |
for (AbsorbedCell pdfTableCell : pdfTableRow.getCellList()) | |
{ | |
// Access each text fragment from the cell | |
TextFragmentCollection textFragmentCollection = pdfTableCell.getTextFragments(); | |
// Access each text fragment from the fragments collection | |
for (com.aspose.pdf.TextFragment textFragment : textFragmentCollection) | |
{ | |
// Display the table cell text | |
System.out.println(textFragment.getText()); | |
} | |
} | |
} | |
System.out.println("Done"); | |
} | |
} |
A Táblázat PDF-ből való kivonásához itt található Java kód, amely TableAbsorber és AbsorbedTable osztályokat használ a táblázatok PDF-ben történő kezelésére. AbsorbedRow és AbsorbedCell osztályokat is használ a sorok és oszlopok kezelésére, mielőtt a TextFragment osztályt használná a cellaadatok lekérésére. Ezenkívül sok más elnyelő osztály is elérhető a dokumentum különböző elemeihez, például betűtípusokhoz, bekezdésekhez, szöveghez és szövegtöredékekhez.
Ez a cikk leírja, hogy Java használatával a PDF-táblázat kibontása néhány lépésben elvégezhető. Ha szeretné megtanulni, hogyan lehet szöveget és képeket olvasni PDF-fájlból, olvassa el a(z) Hogyan lehet olvasni PDF fájlt Java nyelven cikket.