教師なし学習で特徴を把握~データサイエンスを支える人工知能(AI)技術~ | 第一線で活躍するオープンソースエキスパートが綴るスペシャルコラム。

教師なし学習で特徴を把握~データサイエンスを支える人工知能(AI)技術~

データサイエンスの領域で使われる人工知能(AI)技術、機械学習やディープラーニング(深層学習)などを簡単に解りやすくお伝えします。

[2016年10月24日 ]
株式会社KSKアナリティクス
データアナリスト 足立 悠

 前回は「機械学習」のうち「教師あり学習」とは何なのか?をご紹介しました。もう一度復習しておくと、機械学習とは「機械にデータを解析させ、データに潜む規則性(ルール)やパターンを発見、アルゴリズムを発展させていくプロセス」を指します。

 そして、機械学習には次の4種類の手法が良く使われています。

 前回は機械の故障予測を例に、上図左側の教師あり学習について考えてみました。教師あり学習とは「教師ありデータ(正解が判明しているデータ)を使って、データに潜むパターンや規則性の集合体であるモデルを作成するプロセス」を指します。そして、作成したモデルを正解が判明していないデータに当てはめると、正解を予測することができます。

 と、いうところまでご紹介しました。では今回は、上図右側の「教師なし学習」について、特に「クラスタリング」を例に挙げて考えてみます。

 「クラスタリング」を端的に説明するなら、データの属性に基づいてデータ点をグループに分けることです。例えば、スーパーやコンビニなど小売業で、クーポン発券やDM送付などを目的とした分析手法として使用されています。

 次のような顧客データの属性から、顧客をクラスタリングしてみます。

 顧客属性として、会員番号(ID属性)を除く右6属性を、クラスタリングの属性として使用できます。視覚的に理解しやすいように、ここでは「平均来店間隔日数」と「先月の購入金額」の2つの属性を使って、クラスタリングの基本的イメージを描いてみます。

 2次元空間上に顧客をデータ点としてプロットし、各顧客間の距離を計算します(ユークリッド距離)。皆さま、中学数学で学んだ三平方の定理(ピタゴラスの定理)ですね。そして、距離が近い顧客同士で、ここでは5グループに分けています。距離が近い=特徴が似ていると見做せますので、類似した顧客をグループに分けることができます。顧客ひとりひとりに対してマーケティングアクションを起こすこともできますが、データサイエンスの力を使ってある程度の単位でアクションを起こせば効率的です。

 クラスタリングのためのアルゴリズムについては、こちらをご参照ください。k-means法が一般によく使われています。

 以上のように、教師なし学習はデータの特徴を把握し、データを要約したりすることに使われます。そして、

 今回ご紹介した教師あり学習・予測分析を実装できるオープンソース・無料のデータ分析ソフトはこちら。
RapidMiner:プログラミング不要、GUI操作で誰でも簡単に分析できる。
NYSOL:コマンドを記述して高速に分析できる。データ加工処理が得意。
Revolution R:R言語でスケーラブルなハイパフォーマンス分析環境を構築できる。
 ソフトは各リンク先から入手できますので、ぜひお試しください!

 次回は、前回の「教師あり学習」でご紹介したアルゴリズム「ディープラーニング」とは何なのか?そしてGUI環境で簡単に試せる方法をご紹介します。

著者プロフィール

株式会社KSKアナリティクス
データアナリスト 足立 悠(あだち はるか)

 大手電機メーカーでエンジニア、事業会社でデータ分析者を経てKSKアナリティクスへ入社。社内のデータ活用推進者としてマーケティング戦略、業務改善に関するデータ分析業務に携わる。テキストマイニング、レコメンデーション手法が得意。
 また、大学院(博士後期課程)にて人の行動データを使った予兆検出(複雑ネットワーク、トピックモデル)に関する研究に従事。

最新TOPICS

【AI】人工知能が「人工知能プログラム」を作成し始めた---Google Brainプロジェクトなどで確認、現状ではかなりの費用がかかる(2017年01月23日 10:03)

MITのレポートによると、 人工知能が人工知能プログラムを作成するようになってきている。 【ポイント】 ・Google Brainプロジェクトなどで確認 ・「人工知能が作成した人工知能プログラム」は、人間が開発したプロダクトと同等、または、上回っていた ・ただし、画像処理プロセッサを800台も協調作動させる必要がある (出所:http://jp.techcrunch.com/2...

関連タグ

ベイズ理論()

  • 用語集

18世紀のイギリスの数学者であるトーマス・ベイズによって示された条件付き確率に関して成り立つ定理に基づく理論。

相関分析(Correlation Analysis)

  • 用語集

2つないし2つ以上の変量の間で、一方の変量が変化すると他方もそれに応じて変化する相関関係を統計的に分析する分析手法である。

R(アール)

  • 用語集

「R」を用いることで、クロス集計や回帰分析、クラスター分析、シミュレーションなどの基本的な統計分析が可能となる。またオープンソースとしてだけでなく、パッケージを導入することで最新の分析手法を実行することもできる。

アソシエーション分析(Association Analytics)

  • 用語集

データ間の相関関係を発見する場合に用いられる、データマイニングの手法のひとつ。

関連記事

  • KSKサイド001

facebook

twitter