Ten samouczek krok po kroku pokazuje, jak wyodrębnić tekst z zeskanowanego PDF w języku C#. Podczas skanowania dokumentów do pliku PDF strony te są dodawane jako zeskanowane obrazy do pliku PDF. Tak więc, aby wyodrębnić tekst ze zeskanowanego pliku PDF, będziesz musiał wyodrębnić tekst z obrazów w formacie PDF w języku C#, stosując optyczne rozpoznawanie znaków (OCR).

Kroki, aby wyodrębnić tekst ze zeskanowanego pliku PDF w języku C#

Uzyskaj Aspose.OCR for .NET od menedżera pakietów NuGet.org
Dodaj odwołanie do Aspose.OCR namespace
Zastosuj kod licencyjny za pomocą metody SetLicense
Zainicjuj wystąpienie klasy AsposeOcr
Określ ustawienia rozpoznawania za pomocą DocumentRecognitionSettings class
Wyodrębnij wszystkie strony PDF za pomocą metody RecognizePDF
Pobierz tekst z każdej strony PDF za pomocą właściwości RecognitionText

Za pomocą powyższych kroków możesz szybko i łatwo czytać tekst z zeskanowanego pliku PDF w języku C#. Wcześniej pokazaliśmy, jak Wyodrębnij tekst z obrazu w C#. Jednak ten przykład pomaga uzyskać tekst z pliku PDF w języku C#.

Kod do wyodrębniania tekstu ze zeskanowanego pliku PDF w języku C#

Powyższy przykład pobierania tekstu w języku C# z pliku PDF jest prosty i łatwy do zrozumienia. Po prostu czytamy zeskanowany plik PDF, a następnie wyodrębniamy tekst z każdej strony. Jednak jednym ważnym punktem do zrozumienia tutaj jest właściwość DetectArea. Jeśli ustawisz to na true, zapewni to większą dokładność, ale zmniejszy szybkość przetwarzania pliku PDF. Jednak ustawienie go na fałsz spowoduje poprawę szybkości i może nieco zmniejszyć dokładność. Musisz więc wybrać jedną z dwóch opcji w zależności od sytuacji.

Baza wiedzy Aspose

Znajdź odpowiedzi według API

Jak wyodrębnić tekst ze zeskanowanego pliku PDF w języku C#

Kroki, aby wyodrębnić tekst ze zeskanowanego pliku PDF w języku C#

Kod do wyodrębniania tekstu ze zeskanowanego pliku PDF w języku C#