教師なし学習で特徴を把握~データサイエンスを支える人工知能(AI)技術~ | 第一線で活躍するオープンソースエキスパートが綴るスペシャルコラム。

教師なし学習で特徴を把握~データサイエンスを支える人工知能(AI)技術~

データサイエンスの領域で使われる人工知能(AI)技術、機械学習やディープラーニング(深層学習)などを簡単に解りやすくお伝えします。

[2016年10月24日 ]
株式会社KSKアナリティクス
データアナリスト 足立 悠

 前回は「機械学習」のうち「教師あり学習」とは何なのか?をご紹介しました。もう一度復習しておくと、機械学習とは「機械にデータを解析させ、データに潜む規則性(ルール)やパターンを発見、アルゴリズムを発展させていくプロセス」を指します。

 そして、機械学習には次の4種類の手法が良く使われています。

 前回は機械の故障予測を例に、上図左側の教師あり学習について考えてみました。教師あり学習とは「教師ありデータ(正解が判明しているデータ)を使って、データに潜むパターンや規則性の集合体であるモデルを作成するプロセス」を指します。そして、作成したモデルを正解が判明していないデータに当てはめると、正解を予測することができます。

 と、いうところまでご紹介しました。では今回は、上図右側の「教師なし学習」について、特に「クラスタリング」を例に挙げて考えてみます。

 「クラスタリング」を端的に説明するなら、データの属性に基づいてデータ点をグループに分けることです。例えば、スーパーやコンビニなど小売業で、クーポン発券やDM送付などを目的とした分析手法として使用されています。

 次のような顧客データの属性から、顧客をクラスタリングしてみます。

 顧客属性として、会員番号(ID属性)を除く右6属性を、クラスタリングの属性として使用できます。視覚的に理解しやすいように、ここでは「平均来店間隔日数」と「先月の購入金額」の2つの属性を使って、クラスタリングの基本的イメージを描いてみます。

 2次元空間上に顧客をデータ点としてプロットし、各顧客間の距離を計算します(ユークリッド距離)。皆さま、中学数学で学んだ三平方の定理(ピタゴラスの定理)ですね。そして、距離が近い顧客同士で、ここでは5グループに分けています。距離が近い=特徴が似ていると見做せますので、類似した顧客をグループに分けることができます。顧客ひとりひとりに対してマーケティングアクションを起こすこともできますが、データサイエンスの力を使ってある程度の単位でアクションを起こせば効率的です。

 クラスタリングのためのアルゴリズムについては、こちらをご参照ください。k-means法が一般によく使われています。

 以上のように、教師なし学習はデータの特徴を把握し、データを要約したりすることに使われます。そして、

 今回ご紹介した教師あり学習・予測分析を実装できるオープンソース・無料のデータ分析ソフトはこちら。
RapidMiner:プログラミング不要、GUI操作で誰でも簡単に分析できる。
NYSOL:コマンドを記述して高速に分析できる。データ加工処理が得意。
Revolution R:R言語でスケーラブルなハイパフォーマンス分析環境を構築できる。
 ソフトは各リンク先から入手できますので、ぜひお試しください!

 次回は、前回の「教師あり学習」でご紹介したアルゴリズム「ディープラーニング」とは何なのか?そしてGUI環境で簡単に試せる方法をご紹介します。

著者プロフィール

株式会社KSKアナリティクス
データアナリスト 足立 悠(あだち はるか)

 大手電機メーカーでエンジニア、事業会社でデータ分析者を経てKSKアナリティクスへ入社。社内のデータ活用推進者としてマーケティング戦略、業務改善に関するデータ分析業務に携わる。テキストマイニング、レコメンデーション手法が得意。
 また、大学院(博士後期課程)にて人の行動データを使った予兆検出(複雑ネットワーク、トピックモデル)に関する研究に従事。

最新TOPICS

【ビッグデータ】日本におけるデータサイエンティスト人材不足問題---将来25万人も不足?(2017年03月30日 10:03)

日本における「データ分析」人材不足の現状について解説。 【テーマ】 ・日本の企業は何をするべきなのか ・ビッグデータを真の意味で活用できている日本企業はまだまだ少ない ・データサイエンティストは将来25万人も不足する?

関連タグ

因子分析(Factor Analysis)

  • 用語集

多変量解析の手法のひとつであり、多変量データに潜む共通因子を探り出す。

RFM分析()

  • 用語集

「RFM分析」とは、Recency、Frequency、Monetaryという3つの指標で顧客を並べ替え、グループ化した顧客の性質を明らかにする顧客分析の手法のひとつ。

データサイエンス(Data Science)

  • 用語集

「データサイエンス」とは情報学の一種であり、データを重視する学問である。

関連記事

  • KSKサイド002

facebook

twitter