教師なし学習で特徴を把握~データサイエンスを支える人工知能(AI)技術~ | 第一線で活躍するオープンソースエキスパートが綴るスペシャルコラム。

教師なし学習で特徴を把握~データサイエンスを支える人工知能(AI)技術~

データサイエンスの領域で使われる人工知能(AI)技術、機械学習やディープラーニング(深層学習)などを簡単に解りやすくお伝えします。

[2016年10月24日 ]
株式会社KSKアナリティクス
データアナリスト 足立 悠

 前回は「機械学習」のうち「教師あり学習」とは何なのか?をご紹介しました。もう一度復習しておくと、機械学習とは「機械にデータを解析させ、データに潜む規則性(ルール)やパターンを発見、アルゴリズムを発展させていくプロセス」を指します。

 そして、機械学習には次の4種類の手法が良く使われています。

 前回は機械の故障予測を例に、上図左側の教師あり学習について考えてみました。教師あり学習とは「教師ありデータ(正解が判明しているデータ)を使って、データに潜むパターンや規則性の集合体であるモデルを作成するプロセス」を指します。そして、作成したモデルを正解が判明していないデータに当てはめると、正解を予測することができます。

 と、いうところまでご紹介しました。では今回は、上図右側の「教師なし学習」について、特に「クラスタリング」を例に挙げて考えてみます。

 「クラスタリング」を端的に説明するなら、データの属性に基づいてデータ点をグループに分けることです。例えば、スーパーやコンビニなど小売業で、クーポン発券やDM送付などを目的とした分析手法として使用されています。

 次のような顧客データの属性から、顧客をクラスタリングしてみます。

 顧客属性として、会員番号(ID属性)を除く右6属性を、クラスタリングの属性として使用できます。視覚的に理解しやすいように、ここでは「平均来店間隔日数」と「先月の購入金額」の2つの属性を使って、クラスタリングの基本的イメージを描いてみます。

 2次元空間上に顧客をデータ点としてプロットし、各顧客間の距離を計算します(ユークリッド距離)。皆さま、中学数学で学んだ三平方の定理(ピタゴラスの定理)ですね。そして、距離が近い顧客同士で、ここでは5グループに分けています。距離が近い=特徴が似ていると見做せますので、類似した顧客をグループに分けることができます。顧客ひとりひとりに対してマーケティングアクションを起こすこともできますが、データサイエンスの力を使ってある程度の単位でアクションを起こせば効率的です。

 クラスタリングのためのアルゴリズムについては、こちらをご参照ください。k-means法が一般によく使われています。

 以上のように、教師なし学習はデータの特徴を把握し、データを要約したりすることに使われます。そして、

 今回ご紹介した教師あり学習・予測分析を実装できるオープンソース・無料のデータ分析ソフトはこちら。
RapidMiner:プログラミング不要、GUI操作で誰でも簡単に分析できる。
NYSOL:コマンドを記述して高速に分析できる。データ加工処理が得意。
Revolution R:R言語でスケーラブルなハイパフォーマンス分析環境を構築できる。
 ソフトは各リンク先から入手できますので、ぜひお試しください!

 次回は、前回の「教師あり学習」でご紹介したアルゴリズム「ディープラーニング」とは何なのか?そしてGUI環境で簡単に試せる方法をご紹介します。

著者プロフィール

株式会社KSKアナリティクス
データアナリスト 足立 悠(あだち はるか)

 大手電機メーカーでエンジニア、事業会社でデータ分析者を経てKSKアナリティクスへ入社。社内のデータ活用推進者としてマーケティング戦略、業務改善に関するデータ分析業務に携わる。テキストマイニング、レコメンデーション手法が得意。
 また、大学院(博士後期課程)にて人の行動データを使った予兆検出(複雑ネットワーク、トピックモデル)に関する研究に従事。

最新TOPICS

【PICKUP】大阪市、「人工知能(AI)を活用した職員の業務支援」を開始へ---国際結婚や養子縁組などの問い合わせをサポート(2017年02月20日 10:03)

大阪市は、2月16日、 今秋から試験的に「人工知能(AI)を活用した職員の業務支援」を開始すると発表した。 【ポイント】 ・当面、戸籍関連事務が対象 ・市民からの申請や問い合わせに素早く正確に対応できるよう、チェック項目や回答案を示す ・国際結婚や養子縁組に伴う申請などの専門性が高い問い合わせ対応をサポートする (出所:http://www.sankei.com/west/ne...

関連タグ

決定木分析()

  • 用語集

樹木状のモデルを使って要因を分析しその分析結果から境界線を探して予測を行う、データマイニングの手法のひとつ。

デシル分析(Decile Analytics)

  • 用語集

「デシル分析(Decile Analytics)」とは、購買履歴データをもとに全顧客の購入金額を高い順に10等分し、各ランクの購入比率や売上高構成比などの有益な情報を得るための分析手法。

医療()

  • タグ

機械学習()

「機械学習」とは、人間が自然に行っている学習能力と同等の機能をコンピュータで実現しようとする技術や手法。データから反復的に学習しそこに潜むパターンを見つけ出す。

関連記事

  • KSKサイド006

facebook

twitter