Ten samouczek krok po kroku pokazuje, jak wyodrębnić tekst z zeskanowanego PDF w języku C#. Podczas skanowania dokumentów do pliku PDF strony te są dodawane jako zeskanowane obrazy do pliku PDF. Tak więc, aby wyodrębnić tekst ze zeskanowanego pliku PDF, będziesz musiał wyodrębnić tekst z obrazów w formacie PDF w języku C#, stosując optyczne rozpoznawanie znaków (OCR).
Kroki, aby wyodrębnić tekst ze zeskanowanego pliku PDF w języku C#
- Uzyskaj Aspose.OCR for .NET od menedżera pakietów NuGet.org
- Dodaj odwołanie do Aspose.OCR namespace
- Zastosuj kod licencyjny za pomocą metody SetLicense
- Zainicjuj wystąpienie klasy AsposeOcr
- Określ ustawienia rozpoznawania za pomocą DocumentRecognitionSettings class
- Wyodrębnij wszystkie strony PDF za pomocą metody RecognizePDF
- Pobierz tekst z każdej strony PDF za pomocą właściwości RecognitionText
Za pomocą powyższych kroków możesz szybko i łatwo czytać tekst z zeskanowanego pliku PDF w języku C#. Wcześniej pokazaliśmy, jak Wyodrębnij tekst z obrazu w C#. Jednak ten przykład pomaga uzyskać tekst z pliku PDF w języku C#.
Kod do wyodrębniania tekstu ze zeskanowanego pliku PDF w języku C#
Powyższy przykład pobierania tekstu w języku C# z pliku PDF jest prosty i łatwy do zrozumienia. Po prostu czytamy zeskanowany plik PDF, a następnie wyodrębniamy tekst z każdej strony. Jednak jednym ważnym punktem do zrozumienia tutaj jest właściwość DetectArea. Jeśli ustawisz to na true, zapewni to większą dokładność, ale zmniejszy szybkość przetwarzania pliku PDF. Jednak ustawienie go na fałsz spowoduje poprawę szybkości i może nieco zmniejszyć dokładność. Musisz więc wybrać jedną z dwóch opcji w zależności od sytuacji.