この簡単なチュートリアルでは、Python を使用して PDF を Text に変換する方法 について説明します。システム構成の詳細と、PDF から Text Python ベースの変換を実行するためのサンプル コードを含む段階的なプロセスについて説明します。さらに、必要に応じて、抽出したテキストをファイルまたはコンソールに書き込むことができます。
Python で PDF をテキストに変換する手順
- .NET 経由の Python 用 Aspose.PDF ライブラリをインストールしてシステムを構成する
- Document クラスを使用してソース PDF ファイルを読み込み、テキスト ファイルに変換します
- Page.Accept() メソッドでテキストをフェッチする TextAbsorber クラス オブジェクトを作成します。
- テキストファイルを作成し、出力テキスト文字列をファイルに書き込みます
これらの手順は、Python PDF から TXT への変換を使用して、いくつかの API 呼び出しで実行する方法をまとめたものです。最初のステップでは、入力 PDF ファイルをロードし、ページからテキストをフェッチするために使用できる TextAbsorber のオブジェクトを初期化します。次に、抽出されたテキストを取得し、ファイル パスと名前を指定して TXT ファイルに書き込む必要があります。
Python で PDF をテキストに変換するコード
このコード スニペットは、Python* を使用して *PDF からテキストへのコンバーターを作成する方法を示しています。 Document クラスを使用してソース PDF ドキュメントをロードします。その後、accept メソッドを使用して PDF ファイルのすべてのページからテキストをフェッチするか、ページ番号を指定して特定のページからテキスト文字列を読み取ることができます。最後に、テキスト文字列をファイルに書き込み、テキスト ファイルをディスクにエクスポートします。
この記事では、アプリケーションで Python PDF to Text レンダリングを使用する方法を学びました。ただし、PDF から Word への変換について学習したい場合は、Pythonを使用してPDFをWordに変換する方法 のチュートリアルをお読みください。