Hoe een PDF-tabel in C# te lezen

Deze korte instructiehandleiding geeft uitleg over hoe de PDF-tabel in C# te lezen en alle inhoud erin te lezen. Het biedt een gedetailleerde beschrijving voor het ontleden van alle tabellen in een PDF-bestand en het vervolgens openen van elke afzonderlijke rij en cel van een bepaalde tabel. Om tabel uit PDF te lezen, bestaat C#-code uit een paar regels waarbij het bron-PDF-bestand wordt geladen en vervolgens worden alle tabellen geparseerd om de inhoud te lezen.

Stappen om PDF-tabel in C# te lezen

  1. Voeg een verwijzing toe naar Aspose.PDF for .NET om tabelgegevens in de PDF te lezen
  2. Laad het bron-PDF-bestand met behulp van het Document klasseobject
  3. Instantieer het klasseobject TableAbsorber en lees alle tabellen van de gewenste PDF-pagina
  4. Doorloop alle rijen in de doel-PDF-tabel
  5. Herhaal alle cellen in elke rij en haal alle tekstfragmenten op
  6. Elk tekstfragment in een cel weergeven of verwerken

In deze stappen wordt een systematische aanpak gevolgd om PDF-tabel in C# te lezen, waarbij eerst het PDF-bestand wordt geladen en vervolgens alle tabellen worden geparseerd met behulp van het TableAbsorber-klasseobject. Zodra alle tabellen in het PDF-bestand zijn bezocht, krijgt u mogelijk de verwijzing naar een van de tabellen in de geparseerde verzameling. U hebt toegang tot elke tabel, rij, cel en tekstfragment in een PDF-bestand om het te verwerken of weer te geven.

Code om PDF-tabel te lezen in C#

using System;
using Aspose.Pdf;
using Aspose.Pdf.Text;
namespace ReadPDFTableInCSharp
{
class Program
{
static void Main(string[] args)
{
// Instantiate the license to avoid trial limitations while reading table data from PDF
License asposePdfLicense = new License();
asposePdfLicense.SetLicense("Aspose.pdf.lic");
// Load source PDF document having a table in it
Aspose.Pdf.Document pdfDocument = new Aspose.Pdf.Document(@"PdfWithTable.pdf");
// Declare and initialize TableAbsorber class object for reading table from the PDF
Aspose.Pdf.Text.TableAbsorber tableAbsorber = new Aspose.Pdf.Text.TableAbsorber();
// Parse all the tables from the desired page in the PDF
tableAbsorber.Visit(pdfDocument.Pages[1]);
// Get reference to the first table in the parsed collection
AbsorbedTable absorbedTable = tableAbsorber.TableList[0];
// Iterate through all the rows in the PDF table
foreach (AbsorbedRow pdfTableRow in absorbedTable.RowList)
{
// Iterate through all the cells in the pdf table row
foreach (AbsorbedCell pdfTableCell in pdfTableRow.CellList)
{
// Fetch all the text fragments in the cell
TextFragmentCollection textFragmentCollection = pdfTableCell.TextFragments;
// Iterate through all the text fragments
foreach (TextFragment textFragment in textFragmentCollection)
{
// Display the text
Console.WriteLine(textFragment.Text);
}
}
}
System.Console.WriteLine("Done");
}
}
}

In deze voorbeeldcode wordt het gebruik van C# ontleed PDF-tabel mogelijk gemaakt met behulp van de TableAbsorber-klasse die wordt gebruikt voor het lezen van tabellen. U kunt echter ook andere opties gebruiken, zoals TextAbsorber, ParagraafAbsorber, FontAbsorber en TextFragmentAbsorber om toegang te krijgen tot verschillende elementen van het document. U kunt de hele verzameling doorlopen of toegang krijgen tot afzonderlijke elementen met behulp van de array-index.

In dit onderwerp hebben we geleerd hoe we PDF-tabel in C# kunnen lezen. Als u echter PDF-bladwijzers wilt lezen, raadpleeg dan het artikel op bladwijzers in PDF lezen met C#.

 Nederlands