Denna korta handledning guidar dig om hur man läser PDF-fil i Java. Den innehåller Java-kod för att läsa PDF-fil så att du först läser text från PDF i Java till en sträng och sedan hämtar alla bilder från PDF-filen för att spara dem på skivan som JPG. Det finns inget behov av att installera något tredjepartsverktyg för att läsa PDF i Java.
Steg för att läsa PDF-fil i Java
- Konfigurera Aspose.PDF i ditt projekt med hjälp av Maven-arkivet för att läsa PDF-filen
- Ladda in PDF-exemplet i klassobjektet Document
- Instantiera TextAbsorber klassobjekt som kan läsa hela texten från PDF-filen
- Läs PDF-text från den laddade filen med hjälp av klassobjektet TextAbsorber
- Visa hela texten läst från PDF-filen på konsolen
- Gå igenom alla sidor i PDF-filen för att komma åt bilderna
- Analysera alla bilder på varje sida bildsamling och spara dem på skivan
I denna snabba steg-för-steg-handledning laddar vi först in mål-PDF-filen och initierar sedan klassobjektet TextAbsorber som kan söka igenom text genom alla sidor i PDF-filen. Hela denna text returneras till en sträng som kan visas eller bearbetas enligt kravet. På samma sätt kan vi analysera alla bilder i bildsamlingen och spara dem på skivan i valfritt format eftersom vi sparade det som JPG i denna handledning.
Kod för att läsa PDF med Java
I denna exempelkod använde vi TextAbsorber-klassen och getImages()-funktionen för Page.getResources() för att läsa PDF med Java. TextAbsorber-objekt används för att läsa text med funktionen acceptera i PDF PageCollection. Medan funktionen getImages() i samlingen getResources() returnerar alla bilder på en sida.
Observera att dessa steg för att läsa PDF i Java kan utföras i alla operativsystem som Windows, Linux eller macOS. Om du vill lära dig mer om att arbeta med PDF-filer, se artikeln om hur man läser bokmärken i PDF med Java.