この短いチュートリアルでは、入力されたPDFドキュメントをロードしてText形式で保存することにより、PDFをJavaでテキストに変換する方法について詳しく説明します。さらに、** Java PDFからテキストへのコンバーター**を使用して、ソースPDFファイルと比較してフォーマットの有無にかかわらず出力テキストが必要かどうかを制御するようにカスタマイズできます。
JavaでPDFをテキストに変換する手順
- MavenリポジトリからAspose.PDFへの参照を追加してアプリケーションを構成し、PDFをテキストファイルに変換します
- PDFをテキストファイルに変換するために、Documentクラスオブジェクトを含む入力PDFファイルをロードします
- TextAbsorberクラスのオブジェクトを作成して、テキスト抽出オプションを設定します
- 抽出したテキストをテキストファイルに書き込みます
上記の手順は、* PDF to TextJava*ベースのコンバーターアプリケーションを開発するプロセスを詳しく説明しています。最初のステップでは、Documentクラスインスタンスを使用して入力PDFドキュメントをロードし、テキストを書式設定するかどうかを選択します。最後に、テキスト文字列を使用してファイルに書き込んだり、要件に応じてさらに処理したりできます。
JavaでPDFをテキストに変換するコード
このサンプルコードは、TextAbsorberクラスのようなさまざまなオプションを使用して完全に制御できる* Java convert PDF to text *を使用することにより、ソースPDFのシェーディングされたテキストを個別のテキストとして変換するオプションを提供するTextSearchOptionsを使用できる複数のコンストラクターがあることを示しています。同様に、バインドされたページ内でのみテキストを検索するようにフラグを設定したり、すべてのページで指定された領域からのみテキストを検索するように長方形を設定したりできます。
ここでは、コードスニペットとともにJavaでPDFをテキストに変換する方法を学びました。 PDFをWordに変換するプロセスを学びたい場合は、JavaでPDFをWordに変換する方法の記事を参照してください。