Kaip ištraukti tekstą iš nuskaityto PDF Java.

Šioje trumpoje mokymo programoje pateikiama išsami informacija apie tai, kaip ištraukti tekstą iš nuskaityto PDF Java. Galite sukonfigūruoti šį teksto ištraukimo iš nuskaityto PDF Java procesą nustatydami aptikimo parametrus. Taip pat galima pasirinkti greitį arba tikslumą, atsižvelgiant į PDF kokybę ir kitus programos reikalavimus.

Veiksmai, kaip ištraukti tekstą iš nuskaityto PDF Java.

  1. Iš Maven saugyklos sukonfigūruokite Aspose.OCR savo projekte, kad skaitytumėte nuskaitytą PDF tekstą
  2. Norėdami skaityti tekstą iš PDF, inicijuokite objektą AsposeOcrPdf
  3. Norėdami nustatyti atpažinimo parametrus, sukurkite DocumentRecognitionSettings klasės objektą
  4. Norėdami skaityti tekstą, nustatykite pradinį puslapį ir PDF failo puslapių skaičių
  5. Norėdami padidinti aptikimo greitį, nustatykite aptikimo sričių vėliavėlę į false
  6. Paskambinkite funkcijai RecognizePdf, kad perskaitytumėte visą tekstą pagal aukščiau pateiktą konfigūraciją
  7. Pakartokite visus ištrauktus rezultatus iš PDF puslapių ir parodykite juos konsolėje

Vykdant teksto nuskaitymą iš PDF Java, inicijuojamas AsposeOCRPdf objektas, kuriame iš tikrųjų yra funkcijų atpažinti tekstą iš PDF. Jis palaiko aptikimo proceso konfigūravimą, pvz., pradžios puslapio numerį, skaitomų PDF puslapių skaičių ir galimybę nustatyti aptikimo sritis, kad būtų galima valdyti greitį ir tikslumą. Galiausiai išnagrinėjame iš kiekvieno puslapio nuskaitytą rezultatų rinkinį ir rodome juos konsolėje.

Kodas, skirtas konvertuoti nuskaitytą PDF į tekstą Java

Šis kodas naudoja AsposeOCRPdf, kad gautų tekstą iš nuskaityto PDF Java. DocumentRecognitionSettings klasės objekte yra parinktys, leidžiančios nustatyti puslapių konfigūraciją naudojant konstruktorių, kaip parodyta šiame pavyzdiniame kode, arba atskirai nustatant pradžios puslapį ir puslapių numerį. Taip pat galite nustatyti kalbą, vaizdo iškreipimo taisymus ir gijų skaičių lygiagrečiam tekstui iš nuskaityto PDF aptikimo.

Šiame straipsnyje mes išmokome išgauti tekstą iš nuskaityto PDF Java ir aptikimo proceso konfigūracijos. Tačiau, jei norite išgauti tekstą iš vaizdo, žr. straipsnį kaip išgauti tekstą iš vaizdo naudojant Java.

 Latviski