2016.08.02 Tue |

テキストマイニングとは

テキストマイニングとは

昨今話題になっているデータマイニングとは、大量のデータを分析することでそこから有用な情報を取り出す手法です。

データマイニング

マイニングとは日本後で「発掘」の意味です。

この手法を文字列に対して行ったのがテキスト解析(テキストマイニング)です。テキスト解析とは大量のテキストデータを単語や文節で区切り、それらの出現率や共出現率(ある単語とある単語が同時に出てくる確率)などを調べることにより、テキストデータの中から特徴を分析する学問です。

テキスト

 

テキストマイニングの目標

テキストマイニングの目標は自然言語解析、つまり、人間が日常的に使っている自然言語をコンピュータに処理させる、人工知能と言語学の一分野の技術用いて文章を単語に分割し、それらから有益な情報を抽出するのが目標です。これが可能になることで、人間にしか分析できない内容を機械が分析することができるようになるわけです。

自然言語解析

 

 

 

テキストマイニングの主な使用例

この記事を見る皆さんの多くはtwitterやfacebookなどのアプリを使っていると思います。

twitter

tanuha2001 / Shutterstock.com

日本でfacebookを使っている人は約2千万人であり、そこでは友達の記事や投稿を簡単にみることができます。(https://www.globalmarketingchannel.com/press/survey20150114)

皆さんが投稿するtwitterやfacebookなどは情報の宝庫です。

Facebookをみれば「ここのパンケーキ屋、今流行ってるんだ!」とか「今芸能人の◯◯が××のところにいるんだ!」などの情報をつぶやいたとき、その情報をテキストマイニングの手法で分析し、いち早く流行をキャッチすることが可能になります。つまり、「何よりも早い流行感知装置」を作ることができるようになるわけです。

流行

FashionStock.com / Shutterstock.com

他の応用として、アンケートの回答の分析というのがあります。選択式のアンケートの場合は得意なのですが、自由記述部分がある場合、人間のチェックが必要です。

そしてここには選択式回答では得られることができない貴重な内容が含まれています。これにテキストマイニングの手法を使うことで、時間の削減、分析方法の伝承、経費の削減など、様々な価値があります。

 

東京大学工学部計数工学科 学部生

ペンネーム:まだ隠しキャラ2

2024.1  
給料も教育もガッツリと!メンター制度開始します  詳しく