Ez a gyors oktatóanyag elmagyarázza, hogyan konvertálhatja a(z) PDF-t Text-re Python használatával. Tartalmazza a rendszerkonfiguráció részleteit és a lépésenkénti folyamatot, valamint egy mintakódot a PDF-ből Text Python-alapú konvertáláshoz. Sőt, a kivonatolt szöveget igény szerint a fájlba vagy a konzolra írhatja.
A PDF-ből szöveggé konvertálás lépései Pythonban
- Konfigurálja a rendszert a Aspose.PDF Pythonhoz .NET-en keresztül könyvtár telepítésével
- Töltse be a forrás PDF-fájlt a Document osztály használatával, hogy szövegfájllá konvertálja
- Hozzon létre egy TextAbsorber osztályobjektumot a szöveg lekéréséhez a Page.Accept() metódussal
- Hozzon létre egy szöveges fájlt, és írja be a kimeneti szöveget a fájlba
Ezek a lépések összefoglalják, hogyan hajtható végre a Python PDF-ből TXT konvertálása néhány API-hívással. Első lépésben töltse be a bemeneti PDF-fájlt, és inicializáljon egy TextAbsorber-objektumot, amely felhasználható szövegek lehívására az oldalakról. Ezután be kell szereznie a kicsomagolt szöveget, és be kell írnia egy TXT fájlba, miközben megadja a fájl elérési útját és nevét.
Kód a PDF szöveggé konvertálásához Pythonban
import aspose.pdf as pdf | |
# Load the license | |
license = pdf.License() | |
license.set_license("Aspose.Total.lic") | |
# Load input PDF document | |
document = pdf.Document("Combine.pdf") | |
# Initialize TextAbsorber object | |
textAbsorber = pdf.text.TextAbsorber() | |
# Call Page.Accept() method to fetch text | |
document.pages.accept(textAbsorber) | |
# Get the extracted text string | |
text = textAbsorber.text | |
# Create a TXT file and write the string | |
text_file = open("PDFtoTXT.txt", "wt") | |
n = text_file.write(text) | |
text_file.close() | |
print("Conversion Completed Successfully") |
Ez a kódrészlet bemutatja, hogyan hozhat létre PDF szöveggé konvertálót Python használatával. A dokumentum osztály használatával tölti be a forrás PDF dokumentumot. Ezt követően a PDF-fájl összes oldaláról lehívhat szöveget az elfogadási módszerrel, vagy beolvashatja a szöveges karakterláncot egy adott oldalról az oldalszám megadásával. Végül írja be a szöveges karakterláncot egy fájlba, és exportálja a szövegfájlt a lemezre.
Ebből a cikkből megtudtuk, hogyan lehet a Python PDF-ből szöveggé renderelést végrehajtani alkalmazásaival. Ha azonban meg szeretné tanulni a PDF–Word konvertálást, olvassa el az oktatóanyagot a hogyan lehet PDF-et Word-be konvertálni Python segítségével oldalon.