Java を使用してスキャンした PDF を編集可能な PDF に変換する

この短いチュートリアルでは、Java を使用してスキャンした PDF を編集可能な PDF に変換する方法を案内します。IDE の設定方法、手順の一覧、そして Java を使用してスキャンした PDF を検索可能な PDF に変換するサンプルコード が含まれています。画像のスキャンとコンテンツを読み取り可能なテキストに変換するプロセスをカスタマイズするための詳細が得られます。

Java を使用して PDF を読みやすくする手順

  1. IDE を設定して Aspose.Total for Java を使用し、スキャンした PDF を検索可能な PDF に変換します。
  2. 出力にウォーターマークが付かないように、該当する製品ライセンスをインスタンス化する
  3. AsposeOCR クラスを使用して認識エンジンのインスタンスを作成する
  4. OcrInput クラスを使用して入力インスタンスを作成し、元のスキャンされた PDF をロードします
  5. 画像スキャン中のカスタマイズ用にパラメータを設定するために RecognitionSettings インスタンスを作成します
  6. AsposeOCR.Recognize() メソッドを呼び出して、スキャンされた PDF からデータを取得し、一時的な PDF に保存します。
  7. 中間PDFをAspose.PDFの Document クラスオブジェクトにロードし、メタデータを設定します
  8. 検索可能なテキストとメタデータを含む最終PDFをディスクに保存する

これらの手順は、Java を使用した PDF 画像から PDF テキストへの変換 方法を説明します。認識エンジンオブジェクトを作成し、スキャンした PDF ファイルを OcrInput オブジェクトに追加して入力ファイルを準備し、RecognitionSettings オブジェクトでパラメータを定義し、Recognize() メソッドを呼び出してデータをスキャンし、結果を中間 PDF ファイルに保存します。最後に、Aspose.PDF.Document オブジェクトを使用して中間 PDF ファイルをロードし、メタデータを追加したりさらにフォーマットしたりして、最終的な PDF ファイルを保存します。

Java を使用した PDF 画像をテキストに変換するコード

このコードは、Java を使用して PDF を検索可能な PDF に変換する方法を示しています。PDF をスキャンする際に特定の検出言語を設定したり、言語を自動検出するフラグを設定したり、認識を特定の文字に限定したり、OCR が無視する文字をブラックリストに登録したりできます。必要に応じて、ソース文書の領域/レイアウト検出戦略を選択するオプションも利用可能です。

この記事では、PDFを選択可能なテキストPDFに変換する手順を学びました。PDFフォームからExcelへデータをエクスポートするには、記事Export Data from a PDF Form to Excel using Javaを参照してください。

 日本語