教師なし学習で特徴を把握~データサイエンスを支える人工知能(AI)技術~ | 第一線で活躍するオープンソースエキスパートが綴るスペシャルコラム。

教師なし学習で特徴を把握~データサイエンスを支える人工知能(AI)技術~

データサイエンスの領域で使われる人工知能(AI)技術、機械学習やディープラーニング(深層学習)などを簡単に解りやすくお伝えします。

[2016年10月24日 ]
株式会社KSKアナリティクス
データアナリスト 足立 悠

 前回は「機械学習」のうち「教師あり学習」とは何なのか?をご紹介しました。もう一度復習しておくと、機械学習とは「機械にデータを解析させ、データに潜む規則性(ルール)やパターンを発見、アルゴリズムを発展させていくプロセス」を指します。

 そして、機械学習には次の4種類の手法が良く使われています。

 前回は機械の故障予測を例に、上図左側の教師あり学習について考えてみました。教師あり学習とは「教師ありデータ(正解が判明しているデータ)を使って、データに潜むパターンや規則性の集合体であるモデルを作成するプロセス」を指します。そして、作成したモデルを正解が判明していないデータに当てはめると、正解を予測することができます。

 と、いうところまでご紹介しました。では今回は、上図右側の「教師なし学習」について、特に「クラスタリング」を例に挙げて考えてみます。

 「クラスタリング」を端的に説明するなら、データの属性に基づいてデータ点をグループに分けることです。例えば、スーパーやコンビニなど小売業で、クーポン発券やDM送付などを目的とした分析手法として使用されています。

 次のような顧客データの属性から、顧客をクラスタリングしてみます。

 顧客属性として、会員番号(ID属性)を除く右6属性を、クラスタリングの属性として使用できます。視覚的に理解しやすいように、ここでは「平均来店間隔日数」と「先月の購入金額」の2つの属性を使って、クラスタリングの基本的イメージを描いてみます。

 2次元空間上に顧客をデータ点としてプロットし、各顧客間の距離を計算します(ユークリッド距離)。皆さま、中学数学で学んだ三平方の定理(ピタゴラスの定理)ですね。そして、距離が近い顧客同士で、ここでは5グループに分けています。距離が近い=特徴が似ていると見做せますので、類似した顧客をグループに分けることができます。顧客ひとりひとりに対してマーケティングアクションを起こすこともできますが、データサイエンスの力を使ってある程度の単位でアクションを起こせば効率的です。

 クラスタリングのためのアルゴリズムについては、こちらをご参照ください。k-means法が一般によく使われています。

 以上のように、教師なし学習はデータの特徴を把握し、データを要約したりすることに使われます。そして、

 今回ご紹介した教師あり学習・予測分析を実装できるオープンソース・無料のデータ分析ソフトはこちら。
RapidMiner:プログラミング不要、GUI操作で誰でも簡単に分析できる。
NYSOL:コマンドを記述して高速に分析できる。データ加工処理が得意。
Revolution R:R言語でスケーラブルなハイパフォーマンス分析環境を構築できる。
 ソフトは各リンク先から入手できますので、ぜひお試しください!

 次回は、前回の「教師あり学習」でご紹介したアルゴリズム「ディープラーニング」とは何なのか?そしてGUI環境で簡単に試せる方法をご紹介します。

著者プロフィール

株式会社KSKアナリティクス
データアナリスト 足立 悠(あだち はるか)

 大手電機メーカーでエンジニア、事業会社でデータ分析者を経てKSKアナリティクスへ入社。社内のデータ活用推進者としてマーケティング戦略、業務改善に関するデータ分析業務に携わる。テキストマイニング、レコメンデーション手法が得意。
 また、大学院(博士後期課程)にて人の行動データを使った予兆検出(複雑ネットワーク、トピックモデル)に関する研究に従事。

最新TOPICS

【AI】AI国内市場予測---「AI導入検討中=17.9%」「年平均20.4%で成長」「米独市場と比べて高い成長率を維持」(2017年05月25日 10:03)

MM総研がAI国内市場予測を発表した。 【ポイント】 日本企業 ・人工知能(AI)をビジネスに導入している=1.8% ・導入検討中=17.9% AIの国内市場規模 ・2016年度=2220億円(前年度比約2倍) AIの国内市場規模成長予測 ・年平均20.4%で成長 ・2021年には5610億円に達する予測 ・米独市場と比べて高い成長率を維持

関連タグ

コンジョイント分析(Conjoint Analysis)

  • 用語集

商品やサービスを構成する要素の最適な組み合わせを探るために多変量解析を用いた分析方法。

通信()

  • タグ

ボット(bot)

  • 用語集

「ボット (bot) 」とは、「ロボット」の略称であり、もともと人間がコンピュータを操作して行う処理を自動的に実行するアプリケーションを指す。

サポートベクターマシン(Support Vector Machine)

  • 用語集

「サポートベクターマシン(SVM:Support Vector Machine)」は、 画像・音声などの情報データから、意味を持つ対象を選別して取り出すパターン認識手法のひとつ。

アソシエーション分析(Association Analytics)

  • 用語集

データ間の相関関係を発見する場合に用いられる、データマイニングの手法のひとつ。

関連記事

  • KSKサイド002

facebook

twitter