Ovaj vodič sadrži informacije o tome kako izdvojiti tekst iz PDF pomoću Pythona. Ima sve pojedinosti za postavljanje okruženja, popis koraka i primjer koda za kopiranje teksta iz PDF-a s nekoliko API poziva pomoću Pythona. Naučit ćete čitati podatke iz jedne ili više PDF datoteka i prikazati tekst vraćen iz ovog procesa.
Koraci za preuzimanje teksta iz PDF-a pomoću Pythona
- Postavite okruženje za korištenje Aspose.OCR for Python via .NET za čitanje PDF-a
- Napravite objekt AsposeOcr za kopiranje teksta iz PDF-a
- Napravite objekt klase OcrInput i postavite vrstu unosa na PDF
- Dodajte PDF datoteke u zbirku unosa
- Pozovite prepoznati() metodu za čitanje podataka iz PDF zbirke
- Prikažite tekst prepoznavanja iz vraćene zbirke
Ovi koraci sažimaju postupak za izdvajanje teksta iz PDF dokumenta pomoću Pythona. Napravite objekt klase AsposeOcr koji sadrži metode za prepoznavanje teksta iz PDF-a i mnogih drugih formata. Koristite objekt klase OcrInput za postavljanje vrste unosa na PDF i dodavanje ulazne zbirke PDF datoteka. Na kraju pozovite metodu prepoznaj() i prikažite vraćeni tekst.
Kod za izdvajanje teksta iz PDF-a pomoću Pythona
import aspose.ocr as api | |
from aspose.ocr import License | |
# Instantiate a license | |
license = License() | |
license.set_license("License.lic") | |
extractTextFromPDF = api.AsposeOcr() | |
pdfDatas = api.OcrInput(api.InputType.PDF) | |
pdfDatas.add("sample.pdf") | |
textFromPdf = extractTextFromPDF.recognize(pdfDatas) | |
length = textFromPdf.length | |
for i in range(length): | |
print(textFromPdf[i].recognition_text) |
Ovaj kod demonstrira razvoj PDF OCR čitača pomoću Pythona. Klasa AsposeOcr sadrži niz svojstava i metoda za prilagodbu procesa prepoznavanja kao što je izračunavanje nagiba, ispravljanje pravopisa u otkrivenom tekstu i otkrivanje pravokutnika. Ako dodate više PDF datoteka, sav tekst iz PDF-ova vraća se kao zbirka nizova koji se mogu prikazati ponavljanjem vraćene zbirke.
Ovaj nas je članak naučio postupku izdvajanja teksta iz PDF-a. Za izdvajanje teksta iz slika, pogledajte članak na Izdvojite tekst sa slike pomoću Pythona.