Hogyan olvassunk PDF-táblázatot C#-ban

Ez a rövid útmutató bemutatja, hogyan kell elolvasni a PDF táblázatot C#-ban, és elolvasni a benne lévő összes tartalmat. Részletes leírást ad a PDF-fájl összes táblázatának elemzéséhez, majd egy adott táblázat egyes sorainak és celláinak eléréséhez. Annak érdekében, hogy táblázatot olvashasson PDF-ből, a C# kód néhány sorból áll, amelyek során a forrás PDF-fájl betöltődik, majd az összes tábla elemzésre kerül a tartalom olvasásához.

A PDF-tábla olvasásának lépései C#-ban

  1. Adjon hozzá hivatkozást a(z) Aspose.PDF for .NET oldalra a táblázat adatainak olvasásához a PDF-ben
  2. Töltse be a forrás PDF-fájlt a Document osztályobjektum használatával
  3. Példányosítsa a TableAbsorber osztályobjektumot, és olvassa el az összes táblázatot a kívánt PDF-oldalról
  4. Iteráljon végig a cél PDF-tábla összes során
  5. Iterálja az összes cellát az egyes sorokban, és kérje le az összes szövegrészletet
  6. Minden szövegrészlet megjelenítése vagy feldolgozása egy cellában

Ezekben a lépésekben egy szisztematikus megközelítést követünk a PDF-tábla C#-ban való olvasásához, ahol először a PDF-fájl töltődik be, majd az összes tábla elemzésre kerül a TableAbsorber osztályobjektum segítségével. Miután az összes táblázatot meglátogatta a PDF-fájlban, megkaphatja a hivatkozást az elemzett gyűjtemény bármelyik táblázatára. A PDF-fájl bármely táblázatához, sorához, cellájához és szövegrészletéhez hozzáférhet annak feldolgozásához vagy megjelenítéséhez.

Kód a PDF-tábla olvasásához C#-ban

using System;
using Aspose.Pdf;
using Aspose.Pdf.Text;
namespace ReadPDFTableInCSharp
{
class Program
{
static void Main(string[] args)
{
// Instantiate the license to avoid trial limitations while reading table data from PDF
License asposePdfLicense = new License();
asposePdfLicense.SetLicense("Aspose.pdf.lic");
// Load source PDF document having a table in it
Aspose.Pdf.Document pdfDocument = new Aspose.Pdf.Document(@"PdfWithTable.pdf");
// Declare and initialize TableAbsorber class object for reading table from the PDF
Aspose.Pdf.Text.TableAbsorber tableAbsorber = new Aspose.Pdf.Text.TableAbsorber();
// Parse all the tables from the desired page in the PDF
tableAbsorber.Visit(pdfDocument.Pages[1]);
// Get reference to the first table in the parsed collection
AbsorbedTable absorbedTable = tableAbsorber.TableList[0];
// Iterate through all the rows in the PDF table
foreach (AbsorbedRow pdfTableRow in absorbedTable.RowList)
{
// Iterate through all the cells in the pdf table row
foreach (AbsorbedCell pdfTableCell in pdfTableRow.CellList)
{
// Fetch all the text fragments in the cell
TextFragmentCollection textFragmentCollection = pdfTableCell.TextFragments;
// Iterate through all the text fragments
foreach (TextFragment textFragment in textFragmentCollection)
{
// Display the text
Console.WriteLine(textFragment.Text);
}
}
}
System.Console.WriteLine("Done");
}
}
}

Ebben a mintakódban a C# parse PDF table használatát a táblázatok olvasására használt TableAbsorber osztály teszi lehetővé. A dokumentum különböző elemeinek eléréséhez azonban más lehetőségeket is használhat, mint például a TextAbsorber, ArticleAbsorber, FontAbsorber és TextFragmentAbsorber. A teljes gyűjteményt végigjárhatja, vagy a tömbindex segítségével elérheti az egyes elemeket.

Ebben a témakörben megtanultuk, hogyan kell olvasni PDF táblázatot C#-ban. Ha azonban PDF-könyvjelzőket szeretne olvasni, olvassa el a hogyan lehet könyvjelzőket olvasni PDF-ben C# használatával című cikket.

 Magyar