این آموزش سریع نحوه تبدیل PDF به Text با استفاده از Python را توضیح میدهد. این جزئیات پیکربندی سیستم و فرآیند گام به گام به همراه یک کد نمونه برای انجام تبدیل PDF به متن پایتون را پوشش می دهد. علاوه بر این، می توانید متن استخراج شده را بر اساس نیاز خود در فایل یا کنسول بنویسید.
مراحل تبدیل PDF به متن در پایتون
- با نصب کتابخانه Aspose.PDF برای پایتون از طریق دات نت سیستم را پیکربندی کنید
- فایل PDF منبع را با استفاده از کلاس Document برای تبدیل آن به یک فایل متنی بارگیری کنید
- یک شی کلاس TextAbsorber برای واکشی متن با متد Page.Accept() ایجاد کنید
- یک فایل متنی ایجاد کنید و رشته متن خروجی را در فایل بنویسید
این مراحل به طور خلاصه نحوه استفاده از تبدیل Python PDF به TXT را با چند فراخوانی API انجام می دهد. در مرحله اول، فایل PDF ورودی را بارگیری کنید و یک شی از TextAbsorber را مقداردهی کنید که می تواند برای واکشی متن از صفحات استفاده شود. سپس باید متن استخراج شده را دریافت کرده و در یک فایل TXT بنویسید و مسیر و نام فایل را مشخص کنید.
کد برای تبدیل PDF به متن در پایتون
این قطعه کد نحوه ایجاد یک تبدیل PDF به متن با استفاده از Python را نشان می دهد. سند PDF منبع را با استفاده از کلاس Document بارگیری می کند. پس از آن، می توانید متن را از تمام صفحات فایل PDF با روش پذیرش دریافت کنید یا با تعیین شماره صفحه، رشته متن را از یک صفحه خاص بخوانید. در نهایت، رشته متن را در یک فایل بنویسید و فایل متنی را به دیسک صادر کنید.
در این مقاله یاد گرفتیم که چگونه میتوان با استفاده از برنامههای کاربردی خود، رندر * Python PDF to Text* را انجام داد. با این حال، اگر میخواهید تبدیل PDF به Word را یاد بگیرید، آموزش نحوه تبدیل PDF به Word با استفاده از پایتون را بخوانید.