Ištraukite tekstą iš PDF naudodami Python

Šiame vadove pateikiama informacija, kaip ištraukti tekstą iš PDF naudojant Python. Jame yra visa informacija, skirta aplinkai nustatyti, veiksmų sąrašas ir pavyzdinis kodas, leidžiantis nukopijuoti tekstą iš PDF keliais API iškvietimais naudojant Python. Išmoksite skaityti duomenis iš vieno ar kelių PDF failų ir rodyti šio proceso grąžintą tekstą.

Veiksmai, kaip paimti tekstą iš PDF naudojant Python

  1. Nustatykite aplinką, kad PDF skaitymui būtų naudojama Aspose.OCR for Python via .NET
  2. Norėdami nukopijuoti tekstą iš PDF, sukurkite objektą AsposeOcr
  3. Sukurkite OcrInput klasės objektą ir nustatykite įvesties tipą į PDF
  4. Pridėkite PDF failus į įvesties rinkinį
  5. Norėdami nuskaityti duomenis iš PDF rinkinio, iškvieskite atpažinimo () metodą
  6. Rodyti atpažinimo tekstą iš grąžintos kolekcijos

Šie veiksmai apibendrina procesą, kaip ištraukti tekstą iš PDF dokumento naudojant Python. Sukurkite AsposeOcr klasės objektą, kuriame yra metodai atpažinti tekstą iš PDF ir daugelio kitų formatų. Naudokite OcrInput klasės objektą, kad nustatytumėte įvesties tipą į PDF ir pridėtumėte PDF failų įvesties rinkinį. Galiausiai iškvieskite atpažinimo () metodą ir parodykite grąžintą tekstą.

Kodas tekstui ištraukti iš PDF naudojant Python

import aspose.ocr as api
from aspose.ocr import License
# Instantiate a license
license = License()
license.set_license("License.lic")
extractTextFromPDF = api.AsposeOcr()
pdfDatas = api.OcrInput(api.InputType.PDF)
pdfDatas.add("sample.pdf")
textFromPdf = extractTextFromPDF.recognize(pdfDatas)
length = textFromPdf.length
for i in range(length):
print(textFromPdf[i].recognition_text)

Šis kodas demonstruoja PDF OCR skaitytuvo kūrimą naudojant Python. AsposeOcr klasėje yra daug savybių ir metodų, skirtų pritaikyti atpažinimo procesą, pavyzdžiui, galite apskaičiuoti kreivumą, ištaisyti aptikto teksto rašybą ir aptikti stačiakampį. Jei pridedate kelis PDF failus, visas PDF failų tekstas grąžinamas kaip eilučių rinkinys, kuris gali būti rodomas kartojant grąžintą rinkinį.

Šis straipsnis išmokė mus išgauti tekstą iš PDF. Norėdami išgauti tekstą iš vaizdų, žr. straipsnį Ištraukite tekstą iš vaizdo naudodami Python.

 Latviski