教師なし学習で特徴を把握~データサイエンスを支える人工知能(AI)技術~ | 第一線で活躍するオープンソースエキスパートが綴るスペシャルコラム。

教師なし学習で特徴を把握~データサイエンスを支える人工知能(AI)技術~

データサイエンスの領域で使われる人工知能(AI)技術、機械学習やディープラーニング(深層学習)などを簡単に解りやすくお伝えします。

[2016年10月24日 ]
株式会社KSKアナリティクス
データアナリスト 足立 悠

 前回は「機械学習」のうち「教師あり学習」とは何なのか?をご紹介しました。もう一度復習しておくと、機械学習とは「機械にデータを解析させ、データに潜む規則性(ルール)やパターンを発見、アルゴリズムを発展させていくプロセス」を指します。

 そして、機械学習には次の4種類の手法が良く使われています。

 前回は機械の故障予測を例に、上図左側の教師あり学習について考えてみました。教師あり学習とは「教師ありデータ(正解が判明しているデータ)を使って、データに潜むパターンや規則性の集合体であるモデルを作成するプロセス」を指します。そして、作成したモデルを正解が判明していないデータに当てはめると、正解を予測することができます。

 と、いうところまでご紹介しました。では今回は、上図右側の「教師なし学習」について、特に「クラスタリング」を例に挙げて考えてみます。

 「クラスタリング」を端的に説明するなら、データの属性に基づいてデータ点をグループに分けることです。例えば、スーパーやコンビニなど小売業で、クーポン発券やDM送付などを目的とした分析手法として使用されています。

 次のような顧客データの属性から、顧客をクラスタリングしてみます。

 顧客属性として、会員番号(ID属性)を除く右6属性を、クラスタリングの属性として使用できます。視覚的に理解しやすいように、ここでは「平均来店間隔日数」と「先月の購入金額」の2つの属性を使って、クラスタリングの基本的イメージを描いてみます。

 2次元空間上に顧客をデータ点としてプロットし、各顧客間の距離を計算します(ユークリッド距離)。皆さま、中学数学で学んだ三平方の定理(ピタゴラスの定理)ですね。そして、距離が近い顧客同士で、ここでは5グループに分けています。距離が近い=特徴が似ていると見做せますので、類似した顧客をグループに分けることができます。顧客ひとりひとりに対してマーケティングアクションを起こすこともできますが、データサイエンスの力を使ってある程度の単位でアクションを起こせば効率的です。

 クラスタリングのためのアルゴリズムについては、こちらをご参照ください。k-means法が一般によく使われています。

 以上のように、教師なし学習はデータの特徴を把握し、データを要約したりすることに使われます。そして、

 今回ご紹介した教師あり学習・予測分析を実装できるオープンソース・無料のデータ分析ソフトはこちら。
RapidMiner:プログラミング不要、GUI操作で誰でも簡単に分析できる。
NYSOL:コマンドを記述して高速に分析できる。データ加工処理が得意。
Revolution R:R言語でスケーラブルなハイパフォーマンス分析環境を構築できる。
 ソフトは各リンク先から入手できますので、ぜひお試しください!

 次回は、前回の「教師あり学習」でご紹介したアルゴリズム「ディープラーニング」とは何なのか?そしてGUI環境で簡単に試せる方法をご紹介します。

著者プロフィール

株式会社KSKアナリティクス
データアナリスト 足立 悠(あだち はるか)

 大手電機メーカーでエンジニア、事業会社でデータ分析者を経てKSKアナリティクスへ入社。機械学習・ディープラーニングを用いたレコメンデーション、異常検知を得意とする。また、分析セミナー講師や技術雑誌への記事執筆も行う。

最新TOPICS

【IoTで空港を快適に】スイスのジュネーブ空港「乗客が行列に並ぶ時間を半減」「業績を前年度の5倍以上にアップ」に成功---BluetoothとWi-Fiセンサーを活用(2016年06月21日 10:03)

スイス国内で2番目に利用者数の多いジュネーブ空港は、 「乗客が行列に並ぶ時間を半減」「業績を前年度の5倍以上にアップ」に成功している。 【改善方法】 ・施設内でBluetoothとWi-Fiセンサーを活用 ・乗客のリアルタイム計測/高度データ分析 ・空港スタッフ数の最適化 ・セキュリティチェックの可視化 ・Wi-Fiセンサーは空港内各所に設置  →行列に並んでいる人数/待ち時間...

最新CLOSEUPコラム

関連タグ

関連記事

  • KSKサイド001

facebook

twitter