2018.10.13 Sat |

GoogleのOCR(光学的文字認識)のススメ

この記事は、鈴木瑞人が執筆します。

みなさんは、読んだ本で得た知識の管理はどうしていますか？

僕は、読んだ本のうち重要なものは要約して、Google Documentに記録し、いつでも検索できるようにしています。

そうしておくことで、単に自分の理解を深め、また、後輩が何かで躓いているとき、そのボトルネックを解消する知識が僕が過去に読んだ本にあれば、すぐに、このGoogle Documentを読むようにと渡すことができます。

ヒト一人のパフォーマンスには限界があります。学習する際は、単に自分だけ学べばよいというスタンスではなく、自分が学べば、周りの知人や友人にも容易に学ばせるスタンスが望ましいと思います。

例えば、何かいい本があったとして、それを、誰かに薦めたとしても、読んでくれる可能性はゼロに近いです。みんなそれぞれ忙しいのと、本を読むにはそれなりのモチベーションが必要だからです。

でももし、渡した文書がA4で1枚だったり、A4で数枚だったらどうでしょうか？
それだと読んでくれる確率はぐっと高まります。

だから僕は、読んだ本のうち、他の人にも読んでほしいものは、重要な部分を選んで、A4で数枚から10枚くらいに要約して、渡しています。

渡した人のうち、30-50%の人は読んでくれていると感じています。

もちろん、要約にはものすごい時間がかかります。
例えば、6時間かけて本をしっかり要約すると、読んだ時間の4倍(24時間)くらい時間がかかります。

僕は、初めは愚直に要約していましたが、これでは効率が悪いことから、効率を上げる方法を編み出しました。

その方法をご紹介します。

まず、本を読みながら重要なところに、付箋を貼ったり、本に折り目をつけたりして、目印をつけます。
一通り読み終わったら、スマホか、一眼レフで、そのページの写真をとり、そのデータ(jpg拡張子)をGoogle Driveに保存します。そして、そのjpgファイルを、右クリックして、
Open with → Google Docsを選択します。
すると、文書にOCR(Optical character recognition)がかかります。

その結果を用いて、要約を行うことで、要約にかかる時間が、4分の1か3分の1まで圧縮されます。

実際にやってみましょう。

今回は、実際の本の写真をアップロードすることができないので、安倍首相のスピーチのスクリーンショットを使います。
平成30年9月25日第７３回国連総会における安倍内閣総理大臣一般討論演説

https://www.kantei.go.jp/jp/98_abe/statement/2018/0925enzetsu.html

これを、一時的にGoogle Driveに保存します。
そして、このJPGファイル上で右クリックして、Open with → Google Docsを選択します。

すると以下のように、Google Docsの上部に先ほどのjpgファイルが貼り付けられており、
その下に、OCRされた文書が、書き起こされています。
黒文字だけでなく、右にある新しい記事の紹介文まで、OCRがかかっているのがわかると思います。
白抜きの小さな文字もしっかりOCRがかかっています。
ただ、一つのページにいくつかのブロックに分けて文章が書かれている場合、、どのブロックを優先的に書き出すかについては、少々混乱しているようです。

特筆すべきは、一番最後の行の、「できたことは、私にとって無上の喜びです。また世界史に特筆される規模と範囲」が、元のjpgファイルでは、下の4分の1程かけているにもかかわらず、しっかりとOCRがかかっていることです。
僕の経験上、4分の3くらいかけていても、だいたい正確にOCRがかかります。

さて、もう少し、GoogleのOCRについて書きましょう。
GoogleのOCRがDeepLearningベースになり、精度が上がったとはいえ、人が書いた文字などはあまりちゃんとOCRがかかりません。
その例をお見せしましょう。
僕が過去に使っていたノートの一ページについてOCRをかけてみます。

OCRをかけると以下のような結果が返ってきます。
15%くらいは、特に英語に関しては、正常に文字認識されていますが、手書きの日本語(特に僕のような汚い手書き文字)は、まだ認識できないようです。
もちろんあくまで現状の精度であり、数か月後にはまた違った精度になっているとは思います。

ということで、ぜひ、GoogleのOCRお試しください。

今回はここまで。

鈴木瑞人
株式会社パッパーレ
東京大学大学院新領域創成科学研究科　メディカル情報生命専攻　博士課程
NPO法人Bizjapan テクノロジー部門　BizXチームリーダー

カテゴリー： | Post：2018.10.13 Sat

GoogleのOCR(光学的文字認識)のススメ

NEW

CATEGORY

ARCHIVE

SEARCH