Den här guiden innehåller information om hur man extraherar text från PDF med Python. Den har alla detaljer för att ställa in miljön, en lista med steg och en exempelkod för att rippa text från PDF med några API-anrop med Python. Du kommer att lära dig att läsa data från enstaka eller flera PDF-filer och visa texten som returneras från denna process.
Steg för att ta text från PDF med Python
- Ställ in miljön att använda Aspose.OCR for Python via .NET för att läsa en PDF
- Skapa objektet AsposeOcr för att rippa text från en PDF
- Skapa klassobjektet OcrInput och ställ in inmatningstypen till PDF
- Lägg till PDF-filer till indatasamlingen
- Anropa metoden identifi() för att läsa data från PDF-samlingen
- Visa igenkänningstexten från den returnerade samlingen
Dessa steg sammanfattar processen för att extrahera text från PDF-dokument med Python. Skapa klassobjektet AsposeOcr som innehåller metoder för att känna igen text från PDF och många andra format. Använd klassobjektet OcrInput för att ställa in inmatningstypen till PDF och lägga till indatasamlingen av PDF-filer. Anropa till sist metoden identifi() och visa den returnerade texten.
Kod för att extrahera text ur PDF med Python
import aspose.ocr as api | |
from aspose.ocr import License | |
# Instantiate a license | |
license = License() | |
license.set_license("License.lic") | |
extractTextFromPDF = api.AsposeOcr() | |
pdfDatas = api.OcrInput(api.InputType.PDF) | |
pdfDatas.add("sample.pdf") | |
textFromPdf = extractTextFromPDF.recognize(pdfDatas) | |
length = textFromPdf.length | |
for i in range(length): | |
print(textFromPdf[i].recognition_text) |
Den här koden visar utvecklingen av en PDF OCR-läsare med Python. AsposeOcr-klassen innehåller ett antal egenskaper och metoder för att anpassa igenkänningsprocessen, som att du kan beräkna skevningen, korrigera stavningarna i den upptäckta texten och detektera rektangel. Om du lägger till flera PDF-filer, returneras all text från PDF-filerna som en samling av strängarna som kan visas genom att iterera den returnerade samlingen.
Den här artikeln har lärt oss processen att extrahera text från PDF. För att extrahera text från bilder, se artikeln om Extrahera text från bilden med Python.