PythonでOCRを使う方法

2021.04.182024.05.23

PythonでOCRを使えるというので試してみました。

次のページを元にして対応したところ、うまくいきました。ありがとうございました。
Mac環境でpyOCRで画像データをテキスト化する – Qiita

Macで試しています。
Homebrewはインストール済みです。

PyOCRのインストール

$ sudo pip install pyocr

「Successfully installed pyocr-0.8」と表示されました。

Tesseractのインストール

$ brew install tesseract

jpn.traineddataの取得

$ wget https://github.com/tesseract-ocr/tessdata/raw/4.00/jpn.traineddata
$ mv jpn.traineddata /usr/local/Cellar/tesseract/4.1.1/share/tessdata/

フォルダを調べると「4.1.1」となっていたのでそれに合わせました。

コード

from PIL import Image
import pyocr

tools = pyocr.get_available_tools()
tool = tools[0]

txt = tool.image_to_string(
Image.open('neko.png'),
lang='jpn',
builder=pyocr.builders.TextBuilder()
)
print(txt)

実行

同じフォルダにneko.pngとして次の文字列を画像データとして保存しておきます。

実行結果は次の通り。

吾輝は猪である。名前はまだ無い。どこで生れたかとんと見当
がつかぬ。何でも薄暗いいじめじめした所でニャーニャー泣いてい
た事だけは記憶している。吾輝はここで始めて人間というものを
見た。しかもあとで聞くとそれは書生という人間中で一番獣悪な
種施であったそうだ。この書生というのは時々我々を捕えて煮て
食うという話である。しかしその当時は何という考もなかった
から別段恐しいとも思わなかった。

一文字ずつスペースが入ってしまいます。
いきなり「吾輝は猪である」なので、まだまだ実用には耐えられないと思います。