読者です 読者をやめる 読者になる 読者になる

Nanateru Room

ナナテルの情報発信所 〜大体、毎夜に更新します〜

画像・写真からテキストを抽出して、プログラム等が扱いやすいデータにする方法

ナナテルです。
少し前ですが、
銀座伊東屋の12Fにある「CAFE Stylo」で食べた全粒粉のパンケーキ。
f:id:nanateru:20151009145008j:plain
食べ応え・全粒粉ならでは生地の食感・バター?マーガリン?のほのかな甘み
等々が楽しめました。

ユースケース(使用例)と画像・写真の撮り方

どんな時に使ったの?

ある日、私の元にとある単語帳が渡されました。
f:id:nanateru:20150601222405j:plain
それは単語帳という割にはあまりに分厚く(手前は昔使ってたiPhone5) 、
かといって書かれている内容はそれなりによかったので捨てるわけにもいきませんでした。
Scansnapを使えば、簡単にスキャンできることを知っているのですが、
年に何回使うかわからない物にお金はかけたくなく、
かつどこでも手軽にできる方法がいいなと思い、考えました。

画像の撮り方

画像の撮り方は、以前書いた記事のように、
Office Lens」を使用しました。

Office Lens

Office Lens

  • Microsoft Corporation
  • 仕事効率化
  • 無料

play.google.com

全部撮り終わるまでに大体、2時間半程度かかりました。

画像からテキストの抽出

機能の名称

一般的には、OCR(光学文字認識)という名前で知られています。
なので、OCR というキーワードで調べると、色々わかると思います。

Google Driveを利用する

Google Driveにアップロードした画像を右クリックして、「アプリで開く -> Google ドキュメント」をクリックすると、
Google ドキュメントのOCR機能が動作して、自動的にテキスト情報にします。
f:id:nanateru:20160515194714p:plain
「え、そんな簡単にできるの?」って思うかもしれませんが、簡単にできます
日本語も英語も対応していますが、やっぱり英語の方が安定があります。
500件ぐらいデータがあって、そのうち誤認識されたのは3件ぐらいですかね。

扱いやすいデータ化のやり方

表データにする

上記で、出力されたテキスト情報を、
Google スプレッドシートExcelへ、
コピーしては貼り付けて一覧表のような形にします。

表データからコンバートするWebアプリを使用する

世の中にはなかなか便利なものがあって、「Mr. Data Converter」というのがあります。
f:id:nanateru:20160515200543p:plain
これは、エクセルやcsvやtsvなどのデータを、
JSONやPHPのSQLなどのデータにすることができます。
インターネット上に公開されているWEBアプリを使うのに抵抗がある方は、
オープンソースとして公開されているので、こちらからソースをダウンロードして、
ローカルの仮想環境で使える状態にすればいいかもしれません。

私は、iPhoneアプリ上で変換ができるJSONデータ化して、
自分専用の単語帳アプリにして使っています。
結局、全部手打ちした方が早い可能性はありましたが、
文字の誤入力等のリスクを鑑みると、間違いなくこちらが速く・正確だったかなと思います。

では、またの機会に。