Izdvojite tekst iz PDF-a pomoću Pythona

Ovaj vodič sadrži informacije o tome kako izdvojiti tekst iz PDF pomoću Pythona. Ima sve pojedinosti za postavljanje okruženja, popis koraka i primjer koda za kopiranje teksta iz PDF-a s nekoliko API poziva pomoću Pythona. Naučit ćete čitati podatke iz jedne ili više PDF datoteka i prikazati tekst vraćen iz ovog procesa.

Koraci za preuzimanje teksta iz PDF-a pomoću Pythona

  1. Postavite okruženje za korištenje Aspose.OCR for Python via .NET za čitanje PDF-a
  2. Napravite objekt AsposeOcr za kopiranje teksta iz PDF-a
  3. Napravite objekt klase OcrInput i postavite vrstu unosa na PDF
  4. Dodajte PDF datoteke u zbirku unosa
  5. Pozovite prepoznati() metodu za čitanje podataka iz PDF zbirke
  6. Prikažite tekst prepoznavanja iz vraćene zbirke

Ovi koraci sažimaju postupak za izdvajanje teksta iz PDF dokumenta pomoću Pythona. Napravite objekt klase AsposeOcr koji sadrži metode za prepoznavanje teksta iz PDF-a i mnogih drugih formata. Koristite objekt klase OcrInput za postavljanje vrste unosa na PDF i dodavanje ulazne zbirke PDF datoteka. Na kraju pozovite metodu prepoznaj() i prikažite vraćeni tekst.

Kod za izdvajanje teksta iz PDF-a pomoću Pythona

import aspose.ocr as api
from aspose.ocr import License
# Instantiate a license
license = License()
license.set_license("License.lic")
extractTextFromPDF = api.AsposeOcr()
pdfDatas = api.OcrInput(api.InputType.PDF)
pdfDatas.add("sample.pdf")
textFromPdf = extractTextFromPDF.recognize(pdfDatas)
length = textFromPdf.length
for i in range(length):
print(textFromPdf[i].recognition_text)

Ovaj kod demonstrira razvoj PDF OCR čitača pomoću Pythona. Klasa AsposeOcr sadrži niz svojstava i metoda za prilagodbu procesa prepoznavanja kao što je izračunavanje nagiba, ispravljanje pravopisa u otkrivenom tekstu i otkrivanje pravokutnika. Ako dodate više PDF datoteka, sav tekst iz PDF-ova vraća se kao zbirka nizova koji se mogu prikazati ponavljanjem vraćene zbirke.

Ovaj nas je članak naučio postupku izdvajanja teksta iz PDF-a. Za izdvajanje teksta iz slika, pogledajte članak na Izdvojite tekst sa slike pomoću Pythona.

 Hrvatski