Scanned PDF converteren naar bewerkbare PDF met Java

Deze korte tutorial begeleidt je bij het converteren van gescande PDF naar een bewerkbare PDF met Java. Het bevat details voor het configureren van de IDE, een lijst met stappen, en voorbeeldcode om gescande PDF te converteren naar een doorzoekbare PDF met Java. Je krijgt details om het proces van het scannen van afbeeldingen en het omzetten van inhoud naar leesbare tekst aan te passen.

Stappen om PDF leesbaar te maken met Java

  1. Stel de IDE in om Aspose.Total for Java te gebruiken om een gescande PDF om te zetten naar een doorzoekbare PDF.
  2. Instantieer de respectieve productlicenties om watermerken in de uitvoer te voorkomen
  3. Maak een instantie van de herkenningsengine met behulp van de AsposeOCR‑klasse
  4. Maak de invoerinstantie aan met de OcrInput‑klasse en laad de bron‑gescande PDF erin
  5. Maak de RecognitionSettings instantie aan om parameters in te stellen voor de aanpassing tijdens het scannen van de afbeelding
  6. Roep de AsposeOCR.Gebruik de Recognize()-methode om gegevens uit de gescande PDF op te halen en op te slaan in een tijdelijke PDF.
  7. Laad de tussenliggende PDF in het Document klasse‑object van Aspose.PDF en stel de metadata in.
  8. Sla de uiteindelijke PDF op schijf met doorzoekbare tekst en metadata.

Deze stappen beschrijven hoe je PDF-afbeelding naar PDF-tekst met Java converteert. Maak het herkenningsengine‑object, bereid het invoerbestand voor door het gescande PDF‑bestand toe te voegen aan het OcrInput‑object, definieer de parameters in het RecognitionSettings‑object, roep de Recognize()-methode aan om gegevens te scannen en sla de resultaten op in een tussenliggende PDF‑file. Laad tenslotte het tussenliggende PDF‑bestand met Aspose.PDF.Document‑object en voeg metadata toe of formatteer deze verder voordat je het uiteindelijke PDF‑bestand opslaat.

Code om een PDF‑afbeelding naar tekst te converteren met Java.

Deze code laat zien hoe je PDF naar doorzoekbare PDF kunt converteren met Java. Je kunt een specifieke detectietaal instellen tijdens het scannen van de PDF, een vlag instellen om de taal automatisch te detecteren, de herkenning beperken tot specifieke tekens of tekens op een zwarte lijst plaatsen die je wilt dat OCR negeert. Er zijn ook opties beschikbaar om, indien nodig, de detectiestrategie voor het brondocumentgebied/-layout te kiezen.

Dit artikel heeft ons het proces geleerd om een PDF te converteren naar een selecteerbare tekst‑PDF. Om gegevens uit een PDF‑formulier naar Excel te exporteren, raadpleeg het artikel Gegevens exporteren van een PDF‑formulier naar Excel met Java.

 Nederlands