Deze korte instructiehandleiding geeft uitleg over hoe de PDF-tabel in C# te lezen en alle inhoud erin te lezen. Het biedt een gedetailleerde beschrijving voor het ontleden van alle tabellen in een PDF-bestand en het vervolgens openen van elke afzonderlijke rij en cel van een bepaalde tabel. Om tabel uit PDF te lezen, bestaat C#-code uit een paar regels waarbij het bron-PDF-bestand wordt geladen en vervolgens worden alle tabellen geparseerd om de inhoud te lezen.
Stappen om PDF-tabel in C# te lezen
- Voeg een verwijzing toe naar Aspose.PDF for .NET om tabelgegevens in de PDF te lezen
- Laad het bron-PDF-bestand met behulp van het Document klasseobject
- Instantieer het klasseobject TableAbsorber en lees alle tabellen van de gewenste PDF-pagina
- Doorloop alle rijen in de doel-PDF-tabel
- Herhaal alle cellen in elke rij en haal alle tekstfragmenten op
- Elk tekstfragment in een cel weergeven of verwerken
In deze stappen wordt een systematische aanpak gevolgd om PDF-tabel in C# te lezen, waarbij eerst het PDF-bestand wordt geladen en vervolgens alle tabellen worden geparseerd met behulp van het TableAbsorber-klasseobject. Zodra alle tabellen in het PDF-bestand zijn bezocht, krijgt u mogelijk de verwijzing naar een van de tabellen in de geparseerde verzameling. U hebt toegang tot elke tabel, rij, cel en tekstfragment in een PDF-bestand om het te verwerken of weer te geven.
Code om PDF-tabel te lezen in C#
using System; | |
using Aspose.Pdf; | |
using Aspose.Pdf.Text; | |
namespace ReadPDFTableInCSharp | |
{ | |
class Program | |
{ | |
static void Main(string[] args) | |
{ | |
// Instantiate the license to avoid trial limitations while reading table data from PDF | |
License asposePdfLicense = new License(); | |
asposePdfLicense.SetLicense("Aspose.pdf.lic"); | |
// Load source PDF document having a table in it | |
Aspose.Pdf.Document pdfDocument = new Aspose.Pdf.Document(@"PdfWithTable.pdf"); | |
// Declare and initialize TableAbsorber class object for reading table from the PDF | |
Aspose.Pdf.Text.TableAbsorber tableAbsorber = new Aspose.Pdf.Text.TableAbsorber(); | |
// Parse all the tables from the desired page in the PDF | |
tableAbsorber.Visit(pdfDocument.Pages[1]); | |
// Get reference to the first table in the parsed collection | |
AbsorbedTable absorbedTable = tableAbsorber.TableList[0]; | |
// Iterate through all the rows in the PDF table | |
foreach (AbsorbedRow pdfTableRow in absorbedTable.RowList) | |
{ | |
// Iterate through all the cells in the pdf table row | |
foreach (AbsorbedCell pdfTableCell in pdfTableRow.CellList) | |
{ | |
// Fetch all the text fragments in the cell | |
TextFragmentCollection textFragmentCollection = pdfTableCell.TextFragments; | |
// Iterate through all the text fragments | |
foreach (TextFragment textFragment in textFragmentCollection) | |
{ | |
// Display the text | |
Console.WriteLine(textFragment.Text); | |
} | |
} | |
} | |
System.Console.WriteLine("Done"); | |
} | |
} | |
} |
In deze voorbeeldcode wordt het gebruik van C# ontleed PDF-tabel mogelijk gemaakt met behulp van de TableAbsorber-klasse die wordt gebruikt voor het lezen van tabellen. U kunt echter ook andere opties gebruiken, zoals TextAbsorber, ParagraafAbsorber, FontAbsorber en TextFragmentAbsorber om toegang te krijgen tot verschillende elementen van het document. U kunt de hele verzameling doorlopen of toegang krijgen tot afzonderlijke elementen met behulp van de array-index.
In dit onderwerp hebben we geleerd hoe we PDF-tabel in C# kunnen lezen. Als u echter PDF-bladwijzers wilt lezen, raadpleeg dan het artikel op bladwijzers in PDF lezen met C#.