PythonでOCRを使う方法

Pocket

PythonでOCRを使えるというので試してみました。

次のページを元にして対応したところ、うまくいきました。ありがとうございました。
Mac環境でpyOCRで画像データをテキスト化する - Qiita

Macで試しています。
Homebrewはインストール済みです。

PyOCRのインストール

$ sudo pip install pyocr

「Successfully installed pyocr-0.8」と表示されました。

Tesseractのインストール

$ brew install tesseract

jpn.traineddataの取得

$ wget https://github.com/tesseract-ocr/tessdata/raw/4.00/jpn.traineddata
$ mv jpn.traineddata /usr/local/Cellar/tesseract/4.1.1/share/tessdata/

フォルダを調べると「4.1.1」となっていたのでそれに合わせました。

コード

from PIL import Image
import pyocr

tools = pyocr.get_available_tools()
tool = tools[0]

txt = tool.image_to_string(
  Image.open('neko.png'),
  lang='jpn',
  builder=pyocr.builders.TextBuilder()
)
print(txt)

実行

同じフォルダにneko.pngとして次の文字列を画像データとして保存しておきます。

実行結果は次の通り。

吾 輝 は 猪 で あ る 。 名 前 は ま だ 無 い 。 ど こ で 生 れ た か と ん と 見 当
が つ か ぬ 。 何 で も 薄 暗 い い じ め じ め し た 所 で ニ ャ ー ニ ャ ー 泣 い て い
た 事 だ け は 記 憶 し て い る 。 吾 輝 は こ こ で 始 め て 人 間 と い う も の を
見 た 。 し か も あ と で 聞 く と そ れ は 書 生 と い う 人 間 中 で 一 番 獣 悪 な
種 施 で あ っ た そ う だ 。 こ の 書 生 と い う の は 時 々 我 々 を 捕 え て 煮 て
食 う と い う 話 で あ る 。 し か し そ の 当 時 は 何 と い う 考 も な か っ た
か ら 別 段 恐 し い と も 思 わ な か っ た 。

一文字ずつスペースが入ってしまいます。
いきなり「吾 輝 は 猪 で あ る」なので、まだまだ実用には耐えられないと思います。

[ 2021年4月18日 | カテゴリー: デジタル | タグ: , ]

« | »

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

送信してください。


タグ

カテゴリー

最近の投稿

最近のコメント

固定ページ

アーカイブ

stabucky

写真

メタ情報