PythonでOCRを使えるというので試してみました。
次のページを元にして対応したところ、うまくいきました。ありがとうございました。
Mac環境でpyOCRで画像データをテキスト化する – Qiita
Macで試しています。
Homebrewはインストール済みです。
PyOCRのインストール
$ sudo pip install pyocr
「Successfully installed pyocr-0.8」と表示されました。
Tesseractのインストール
$ brew install tesseract
jpn.traineddataの取得
$ wget https://github.com/tesseract-ocr/tessdata/raw/4.00/jpn.traineddata
$ mv jpn.traineddata /usr/local/Cellar/tesseract/4.1.1/share/tessdata/
フォルダを調べると「4.1.1」となっていたのでそれに合わせました。
コード
import pyocr
tools = pyocr.get_available_tools()
tool = tools[0]
txt = tool.image_to_string(
Image.open('neko.png'),
lang='jpn',
builder=pyocr.builders.TextBuilder()
)
print(txt)
実行
同じフォルダにneko.pngとして次の文字列を画像データとして保存しておきます。
実行結果は次の通り。
吾 輝 は 猪 で あ る 。 名 前 は ま だ 無 い 。 ど こ で 生 れ た か と ん と 見 当
が つ か ぬ 。 何 で も 薄 暗 い い じ め じ め し た 所 で ニ ャ ー ニ ャ ー 泣 い て い
た 事 だ け は 記 憶 し て い る 。 吾 輝 は こ こ で 始 め て 人 間 と い う も の を
見 た 。 し か も あ と で 聞 く と そ れ は 書 生 と い う 人 間 中 で 一 番 獣 悪 な
種 施 で あ っ た そ う だ 。 こ の 書 生 と い う の は 時 々 我 々 を 捕 え て 煮 て
食 う と い う 話 で あ る 。 し か し そ の 当 時 は 何 と い う 考 も な か っ た
か ら 別 段 恐 し い と も 思 わ な か っ た 。
一文字ずつスペースが入ってしまいます。
いきなり「吾 輝 は 猪 で あ る」なので、まだまだ実用には耐えられないと思います。
コメント