データマイニング(Data Mining)とは、収集した大量のデータセット(ビッグデータ)に対して、各種データ解析技法(統計学/パターン認識技術/AI技術など)を駆使することにより、そこに潜む「相関関係」「規則性」「傾向」などの「価値のある有用な知見」を見つけ出すための手法を意味する。
データマイニングの定義としては、「今まで知られていなかったが役立つ可能性がある情報をデータから抽出すること」や「データ巨大集合から有用な情報を抽出する技術体系」などがある。
「データサイエンス」では、「データ取得→蓄積→解析→モデル構築→検証→課題解決」までを通して科学的に実施することが求められる。一方、「データマイニング」では、主に「データ取得→蓄積→解析→モデル構築」までを主たる領域としている。
一般的に、データマイニングは、「データ解析」に関する用語として用いられることが多いが、包括的用語であり、さまざまな文脈において多様な意味で用いられている。
データマイニングは、1989年に起きた「Knowledge Discovery in Databases」と呼ばれる学術研究分野の確立が起源とされている。
その後、「計算機性能向上」「データウェアハウス(大量データ蓄積)」「クラウド技術」などの要因により発展し、「統計解析手法」「AI分野での検索技術」などに実用化されている。
データマイニングの派生技術として、主にテキストを扱う「テキストマイニング」や、Webページを対象とする「ウェブマイニング」などがある。
データマイニングは、大きく分けて「目的指向」と「探索指向」の2種類に分けられる。
「目的指向」データマイニングとは、「目的を持ってあらかじめ定義された根拠に基づいて行なう」考え方のこと。
例えば、目的変数(売上数)が設定され、購買量や顧客反応を予測するなど、そのための顧客分類などを行う。
「探索指向」データマイニングとは、特に設定される目的変数はなく、得られたデータから有用な「ルール」「パターン」「類似性」「傾向」などを見つけ出そうとする考え方。
データマイニングの「適用分野」「目的」「対象となるデータ種類」は多種多様に及ぶ。
特に、ビジネス分野においては、企業の業務記録データ(取引記録/行動履歴など)をベースにして、「意思決定」「計画立案」「販売促進」などに有効となる知見を得るために行われることが多い。
データマイニングのさまざまな手法を駆使することにより、知見を得て、「収益増大」「コスト削減」「顧客関係改善」「リスク軽減」などに役立てることができる。
データマイニングは、「企業がそれぞれの顧客を理解し、顧客との長期的な良好関係を形成する戦略」を打ち出すことを目的として、CRM(顧客関係管理)のサポートとして利用できる。
企業が保有する顧客単位の「販売データ」「電話通話履歴」「クレジットカード利用履歴」などのデータから潜在的な顧客ニーズを得ることにより、それぞれの顧客に適合する高度なマーケティング活動支援に活用できる。
データマイニングを行うためには、まず、データ収集が必要になる。解析ベースとなるデータが多いほど、有益情報を採掘できる可能性が高まる。
大量のデータを保管するために「データウェアハウス」を構築するケースも多い。
次に、収集したデータに対して、データ加工(クレンジング)を行う。
そのままでは多くのノイズデータが含まれているため、データマイニングツールなどの仕様に合わせて、データを加工する必要がある。
このデータ加工プロセスは、分析結果の精度に対して大きく影響するため、より精度を高めるために「データの正規化」などが必要になる場合もある。
参考元サイト
※定期的にメンテナンスを実施しておりますが、一部情報が古い場合がございます。ご了承ください。
データ分析でビジネス課題をどのように解決できるか、業界・ケース別にニーズの高いものを例に紹介します。
Analytics News ACCESS RANKING