「データマイニング」とは、企業が収集したビッグデータを解析して、そこに潜む相関関係や価値のあるパターン(仮説)を発掘する技術。

  • データマイニングとは

データマイニングとは

「データマイニング」とは、企業が収集したビッグデータを解析して、そこに潜む相関関係や価値のあるパターン(仮説)を発掘する技術。

データマイニング」とは、企業が収集したビッグデータを解析して、そこに潜む相関関係や価値のあるパターン(仮説)を発掘する技術。

目次

①データマイニング概要

  • 基本説明
  • 「目的指向」と「探索指向」
  • ビジネスにおける適用範囲
  • データマイニングプロセス
  • 経緯
  • 派生技術
  • 参考元サイト

②データマイニング手法

  • マーケットバスケット分析(アソシエーション分析)
  • ロジスティック回帰分析
  • 予測分析
  • 決定木分析
  • ABC分析
  • クラスター分析
  • 参考元サイト

③データマイニングと機械学習の関係

  • 機械学習のデータマイニングとの関係
  • 機械学習とデータマイニングの入門的な手法
  • 「機械学習」超入門
  • 機械学習はデータマイニング分野の中でどのように使用されているか?
  • データ分析/機械学習の代表的な手法
  • 機械学習とデータマイニング

①データマイニング概要

基本説明

データマイニング(Data Mining)とは、収集した大量のデータセット(ビッグデータ)に対して、各種データ解析技法(統計学/パターン認識技術/AI技術など)を駆使することにより、そこに潜む「相関関係」「規則性」「傾向」などの「価値のある有用な知見」を見つけ出すための手法を意味する。

定義

データマイニングの定義としては、「今まで知られていなかったが役立つ可能性がある情報をデータから抽出すること」や「データ巨大集合から有用な情報を抽出する技術体系」などがある。

「データサイエンス」では、「データ取得→蓄積→解析→モデル構築→検証→課題解決」までを通して科学的に実施することが求められる。一方、「データマイニング」では、主に「データ取得→蓄積→解析→モデル構築」までを主たる領域としている。

一般的に、データマイニングは、「データ解析」に関する用語として用いられることが多いが、包括的用語であり、さまざまな文脈において多様な意味で用いられている。

「目的指向」と「探索指向」

データマイニングには、大きく分けて「目的指向」と「探索指向」の2種類に分けられる。

「目的指向」データマイニング

「目的指向」データマイニングとは、「目的を持ってあらかじめ定義された根拠に基づいて行なう」考え方のこと。

例えば、目的変数(売上数)が設定され、購買量や顧客反応を予測するなど、そのための顧客分類などを行う。

「探索指向」データマイニング

「探索指向」データマイニングとは、特に設定される目的変数はなく、得られたデータから有用な「ルール」「パターン」「類似性」「傾向」などを見つけ出そうとする考え方。

ビジネスにおける適用範囲

データマイニングの「適用分野」「目的」「対象となるデータ種類」は多種多様に及ぶ。

特に、ビジネス分野においては、企業の業務記録データ(取引記録/行動履歴など)をベースにして、「意思決定」「計画立案」「販売促進」などに有効となる知見を得るために行われることが多い。

データマイニングのさまざまな手法を駆使することにより、知見を得て、「収益増大」「コスト削減」「顧客関係改善」「リスク軽減」などに役立てることができる。

CRM(顧客関係管理)のサポート

データマイニングは、「企業がそれぞれの顧客を理解し、顧客との長期的な良好関係を形成する戦略」を打ち出すことを目的として、CRM(顧客関係管理)のサポートとして利用できる。

企業が保有する顧客単位の「販売データ」「電話通話履歴」「クレジットカード利用履歴」などのデータから潜在的な顧客ニーズを得ることにより、それぞれの顧客に適合する高度なマーケティング活動支援に活用できる。

データマイニングプロセス

(1)データ収集

データマイニングを行うためには、まず、データ収集が必要になる。解析ベースとなるデータが多いほど、有益情報を採掘できる可能性が高まる。

大量のデータを保管するために「データウェアハウス」を構築するケースも多い。

(2)データ加工

次に、収集したデータに対して、データ加工(クレンジング)を行う。

そのままでは多くのノイズデータが含まれているため、データマイニングツールなどの仕様に合わせて、データを加工する必要がある。

このデータ加工プロセスは、分析結果の精度に対して大きく影響するため、より精度を高めるために「データの正規化」などが必要になる場合もある。

経緯

データマイニングは、1989年に起きた「Knowledge Discovery in Databases」と呼ばれる学術研究分野の確立が起源とされている。

その後、「計算機性能向上」「データウェアハウス(大量データ蓄積)」「クラウド技術」などの要因により発展し、「統計解析手法」「AI分野での検索技術」などに実用化されている。

派生技術

データマイニングの派生技術として、主にテキストを扱う「テキストマイニング」や、Webページを対象とする「ウェブマイニング」などがある。

参考元サイト

②データマイニング手法

データマイニングには多くの分析手法があり、それぞれに得手不得手がある。

主要なデータマイニング手法について紹介。

マーケットバスケット分析(アソシエーション分析)

概要

「マーケットバスケット分析」とは、ユーザーが同時(一定期間内)に行うアクションを抽出するデータマイニング手法である。

「マーケットバスケット分析」の「バスケット」は「買い物かご」を意味しており、顧客取引データを分析し、買い物かごに入れられた商品の組み合わせから、何が一緒に購入されているかを明らかにする。

「商品Aを購入したユーザーは、同時に、商品Bも購入する可能性が高い」という分析結果から、オンラインストアでは、「商品Aを購入したユーザーに対して、商品Bをレコメンドする」などの販促活動に利用できる。

また、実店舗であるスーパーやコンビニなどでは「商品Aと商品Bを近くに陳列する」などに活用できる。

ユースケース

Amazonなどのオンラインストアサイト上での「あなたへのおすすめ商品」機能などに利用されている。

ロジスティック回帰分析

概要

「ロジスティック回帰分析」とは、Yes/No形式データに向いている分析手法で、発生確率予測に使用される。

ユースケース

ダイレクトメール送付において、ダイレクトメールにより「購入する=1」「購入しない=0」と設定することで、顧客それぞれの購入率を算出できる。

ダイレクトメールをきっかけとした購入率が高い顧客に対して優先的にダイレクトメールを送付することで、購入率を高めることができる。

予測分析

概要

「予測分析」とは、ユーザーの「現在のステータス」や「直近の行動」により、将来の行動予測を行う分析手法。

ユースケース

予測分析結果から、「サービス利用を終了しそうなユーザーに対して離脱対策を行う」「課金する可能性の高いユーザーを優先的に有料コンテンツへと誘導」など、それぞれのユーザー特性に合わせた対策を行える。

主なアルゴリズム

予測分析に利用できるアルゴリズムとして、「ランダムフォレスト」「線形回帰分析」「ロジスティック回帰分析」「ニューラルネットワーク」「SVM」などがある。

決定木分析

概要

「決定木分析」とは、顧客の行動分岐を繰り返し、分類ごとに確率を算出する分析手法。

分析を深めるほど分岐していくため、分析結果のアウトプットはツリー構造状になる。

ユースケース

「もし商品購入が発生したら、その次に○○が発生する」のように分岐を繰り返すことで顧客分類を行い、分類された顧客グループごとに確率を算出できる。

ABC分析

概要

ABC分析は、重要度に応じて傾向ごとにクラス分けを行う手法。

ユースケース

在庫管理では、売上順に商品を並べ、総売り上げに対する構成比を計算し、A(70~80%)、B(80~90%)、C(90~100%)のように3つ程度のクラス分けを行い、重要商品の適切な管理を行うために利用される。

クラスター分析

概要

「クラスター分析」とは、各データの類似性に基づき分類する分析手法。「似たような特性」や「似たような行動を行う」グループ分けを行い、特定のグループをターゲットにした施策を行える。

ユースケース

マーケティングにおいては「セグメンテーション」と言われ、顧客セグメントを作成時に、クラスター分析が活用される。

「それぞれのセグメントごとに、それぞれ異なるPR施策を行うことで購入率を高める」などの使い方がある。

参考元サイト

③データマイニングと機械学習の関係

データマイニング」と「機械学習」において、「データの中から法則性やパターンを見つけるアルゴリズムを構成する」という目標は両者に共通しており、重なる部分が多い。

ただし、「データマイニングのユーザーは人間」「機械学習のユーザーはAIシステム」という点で異なっている。

データマイニング」と「機械学習」の関係についてまとめられているサイトを紹介。

機械学習のデータマイニングとの関係

ポイント

「機械学習の概要」「データマイニングとの関係性」「各種アルゴリズム」などについてまとめられている。

テーマ

■1 概要
→1.1 定義
→1.2 一般化
→1.3 人間との相互作用
■2 データマイニングとの関係
■3 アルゴリズムの分類
■4 理論
■5 技法
■6 応用分野
■7 ソフトウェア

ページリンク

→Wikipedia →機械学習

機械学習とデータマイニングの入門的な手法

ポイント

「機械学習とデータマイニングの相違点」と「入門的な手法」についてまとめられている。

テーマ

■1. 決定木学習
■2. 頻出集合発見
■3. 簡単なニューラルネットワーク学習

ページリンク

→Nishida Laboratory →機械学習とデータマイニング

「機械学習」超入門

ポイント

「機械学習の概要」と「データマイニングやディープラーニングとの違い」などについて解説されている。

テーマ

■機械学習とは?
■機械学習の4つのアルゴリズム
→1. 教師あり学習
→2. 教師なし学習
→3. 反教師あり学習
→4. 強化学習
■データマイニングやディープラーニングとの違い
→データマイニング
→ディープラーニング
■機械学習に関する フレームワークやライブラリ
→1. TensorFlow
→2. Chainer
■まとめ

ページリンク

→ferret →そういうことだったのか!と思わずうなずく「機械学習」超入門

機械学習はデータマイニング分野の中でどのように使用されているか?

ポイント

「機械学習がデータマイニングやデータサイエンスなどの分野の中でどのように使用されているか」について解説されている。

テーマ

■基礎
→確率
→統計学
→人工知能
■祖先たち
→計算知能
→データマイニング
→データサイエンス
■リソース

ページリンク

→POSTD →機械学習はどの分野に属するのか?

データ分析/機械学習の代表的な手法

ポイント

代表的なデータ分析・機械学習手法についてまとめられている。

データマイニングで使われるトップ10アルゴリズム」など、どの分析手法がどのように利用されているのか参照できる。

テーマ

■データ分析・機械学習の代表的な手法には何があるか
→統計学的検定
→クロス集計
→主成分分析・特異値分解
→因子分析
→対応分析
→多次元尺度法
→クラスター分析
→自己組織化マップ
→回帰分析
→判別分析
→生存分析
→時系列分析
→決定木・回帰木
→ニューラルネットワーク
→サポートベクターマシン
→アンサンブル学習
→アソシエーション分析
→K近傍法
→その他
■機械学習の手法は大きく4つに分けられる
→カテゴリ値を予測したい場合
→上記以外
■で、いつどれを使えばよいのか
→教師なし
→教師あり

ページリンク

→Qiita →氷解!データ分析、機械学習手法ってたくさんあるけどいつどれを使えばよいのか

機械学習とデータマイニング

ポイント

「機械学習」と「データマイニング」について、論文形式でまとめられている。

テーマ

■1. はじめに
■2. データマイニング,機械学習,統計
■3. データマイニングから見た知識獲得
■4. 機械学習が貢献できる技術
→4・1 属性選択
→4・2 帰納学習の手法
■5. 公理論的な知識の発見
■6. おわりに

ページリンク

→大阪大学産業科学研究所 →機械学習とデータマイニング

データマイニング最新CLOSEUPコラム

イベント情報

無料資料プレゼント

Amazon Redshiftは企業に利益をもたらしているのか?8社を対象にしたIDCの調査レポート

講演資料を見るには、 プライバシーポリシーに同意して、送付先メールアドレスをご入力しご請求ください。

またご入力いただきました情報は、当該資料の作成・提供企業とも共有させていただき、当社及び各社のサービス、製品、セミナー、イベントなどのご案内に使用させていただきます。

本資料を見るには次の画面でアンケートに回答していただく必要があります。



  • 20171130-netapp サイド
  • OSSNEWSに広告を掲載しませんか?

facebook

twitter