- 1. 概要
- 2. 抽出エンジン
- 3. ライブラリ
1. 概要
作成に必要なものを準備します。
さすがに、ここまでに、「python」はインストールしているものとして。
今回使う、「python」は。
python --version
Python 3.12.10
2. 抽出エンジン
画像からテキストを抽出するエンジンとして、フリーの「Tesseract OCR」を使います。
下記からダウンロードしてインストールします。
「Home · UB-Mannheim/tesseract Wiki」
2026年6月10日時点で、バージョンは、「5.5.0.20241111」でした。
ダウンロードしてインストールします。
インストーラを開いて。
悲しいかな、選択肢に日本語がないので、このまま「OK」
「Next」
「I Agree」
「Next」
ここで、「Additional script data」「Additional Language data」で「Japanese」関連と他に使いそうなものはチェックをいれておきます。
チェックしたら、「Next」
「Next」
「Install」
「Next」
「Finish」
これで、「Tesseract OCR」のインストールは完了です。
3. ライブラリ
必要となる「python」のライブラリをインストールしておきます。
pip install pillow pytesseract tkinterdnd2
|
|