Python を使用して PDF からテキストを抽出する

このガイドには、Python を使用して PDF からテキストを抽出する 方法に関する情報が含まれています。環境を設定するためのすべての詳細、手順のリスト、および Python を使用していくつかの API 呼び出しで PDF からテキストをリッピングする サンプル コードが含まれています。単一または複数の PDF ファイルからデータを読み取り、このプロセスから返されたテキストを表示する方法を学習します。

Python を使用して PDF からテキストを取得する手順

  1. Aspose.OCR for Python via .NET を使用して PDF を読む環境を設定します
  2. PDFからテキストをリッピングするためのAsposeOcrオブジェクトを作成します
  3. OcrInput クラスオブジェクトを作成し、入力タイプを PDF に設定します。
  4. 入力コレクションにPDFファイルを追加する
  5. PDFコレクションからデータを読み込むにはrecognize()メソッドを呼び出します
  6. 返されたコレクションから認識テキストを表示する

これらの手順は、Python を使用して PDF ドキュメントからテキストを抽出する プロセスを要約したものです。PDF やその他の多くの形式からテキストを認識するメソッドを含む AsposeOcr クラス オブジェクトを作成します。OcrInput クラス オブジェクトを使用して、入力タイプを PDF に設定し、PDF ファイルの入力コレクションを追加します。最後に、recognize() メソッドを呼び出して、返されたテキストを表示します。

Python を使用して PDF からテキストを抽出するコード

import aspose.ocr as api
from aspose.ocr import License
# Instantiate a license
license = License()
license.set_license("License.lic")
extractTextFromPDF = api.AsposeOcr()
pdfDatas = api.OcrInput(api.InputType.PDF)
pdfDatas.add("sample.pdf")
textFromPdf = extractTextFromPDF.recognize(pdfDatas)
length = textFromPdf.length
for i in range(length):
print(textFromPdf[i].recognition_text)

このコードは、Python を使用した PDF OCR リーダー の開発を示しています。AsposeOcr クラスには、傾きを計算したり、検出されたテキストのスペルを修正したり、四角形を検出したりできるなど、認識プロセスをカスタマイズするためのプロパティとメソッドが多数含まれています。複数の PDF ファイルを追加すると、PDF のすべてのテキストが文字列のコレクションとして返され、返されたコレクションを反復処理することで表示できます。

この記事では、PDF からテキストを抽出する手順を説明しました。画像からテキストを抽出するには、Python を使用して画像からテキストを抽出する の記事を参照してください。

 日本語