Python を使用して PDF 内のテキストを検索および置換する方法

このクイック チュートリアルでは、Python を使用して PDF 内のテキストを検索および置換する方法 について説明します。これには、IDE の構成に関する情報、段階的な詳細なプロセス、および Python を使用して PDF 内の単語を検索および置換するための実行可能なサンプル コードが含まれています。また、アプリケーションの要件に従って、PDF のすべてのページまたは特定のページのテキストを検索および置換するオプションについても学習します。

Python を使用して PDF を検索および置換する手順

  1. 環境を .NET 経由で Aspose.PDF for Python を使用 に設定して、テキストを置き換えます
  2. データを検索して置換する Document クラス オブジェクトを使用して、ターゲット PDF ファイルを読み込みます
  3. TextFragmentAbsorber クラス オブジェクトを使用して検索するテキストを定義します
  4. Document.pages.accept() メソッドを使用して、PDF のすべてのページに TextAbsorber を適用します。
  5. TextFragmentAbsorber.text_fragments プロパティを使用して、PDF で検索されたすべてのアイテムのコレクションへのアクセスを取得します。
  6. 検索されたすべてのテキスト フラグメントを繰り返し処理し、要件に従って新しい値を設定します。
  7. 更新されたテキストを含む更新された PDF ファイルをディスクに保存します。

これらの手順は、Python を使用して PDF 内のすべてを検索して置換するプロセスをまとめたものです。 TextFragmentAbsorber オブジェクトは、検索対象の文字列を指定して宣言されます。次に Document.pages.accept() メソッドが呼び出され、PDF 内のすべてのページが解析され、対象の単語を含むテキスト フラグメントが収集されます。見つかった単語のコレクションの準備ができたら、必要に応じて、すべてまたは選択したフラグメントを新しい単語に置き換えることができます。

Python を使用して PDF 内のテキストを検索および置換するコード

このコードは、Python* を使用して *PDF 検索およびテキスト置換の機能を実装するプロセスを示しています。このコードでは Document.pages.accept() メソッドを使用して PDF 全体のテキストを検索していますが、特定のページのテキストのみを検索して置換する場合は、Document.pages コレクションにページ インデックスを指定してページを選択できます。次に Page.accept() メソッドを呼び出します。 TextFragmentAbsorber オブジェクトをインスタンス化して検索操作をカスタマイズするときに、TextSearchOptions クラス オブジェクトを 2 番目の引数として使用することもできます。

この記事では、PDF 内のテキストを検索して置換する方法を説明しました。 PDF 内のテキストを検索して強調表示するプロセスについて知りたい場合は、Pythonを使用してPDFでハイライトする方法 の記事を参照してください。

 日本語