Python - 画像よりテキスト抽出 - 準備

1.　概要
2.　抽出エンジン
3.　ライブラリ

1.　概要

　作成に必要なものを準備します。
　さすがに、ここまでに、「python」はインストールしているものとして。
　今回使う、「python」は。


python --version


Python 3.12.10


2.　抽出エンジン

　画像からテキストを抽出するエンジンとして、フリーの「Tesseract OCR」を使います。
　下記からダウンロードしてインストールします。

「Home · UB-Mannheim/tesseract Wiki」


　2026年6月10日時点で、バージョンは、「5.5.0.20241111」でした。
　ダウンロードしてインストールします。
　インストーラを開いて。
　悲しいかな、選択肢に日本語がないので、このまま「OK」


　「Next」

「Tesseract OCR」-「Welcome to Tesseract-OCR Setup」


　「I Agree」


　「Next」


　ここで、「Additional script data」「Additional Language data」で「Japanese」関連と他に使いそうなものはチェックをいれておきます。
　チェックしたら、「Next」


　「Next」

「Tesseract OCR」-「Choose Install Location」


　「Install」

「Tesseract OCR」-「Choose Setup Menu Folder」


　「Next」


　「Finish」

「Tesseract OCR」-「Completing Tesseract-OCR Setup」


　これで、「Tesseract OCR」のインストールは完了です。

3.　ライブラリ

　必要となる「python」のライブラリをインストールしておきます。


pip install pillow pytesseract tkinterdnd2

Python - 画像よりテキスト抽出 - 準備

1. 概要

2. 抽出エンジン

3. ライブラリ

1.　概要

2.　抽出エンジン

3.　ライブラリ