教師あり学習から予測分析へ~データサイエンスを支える人工知能(AI)技術~ | 第一線で活躍するオープンソースエキスパートが綴るスペシャルコラム。

教師あり学習から予測分析へ~データサイエンスを支える人工知能(AI)技術~

データサイエンスの領域で使われる人工知能(AI)技術、機械学習やディープラーニング(深層学習)などを簡単に解りやすくお伝えします。

[2016年09月21日 ]
株式会社KSKアナリティクス
データアナリスト 足立 悠

 前回はデータ分析において重要な「機械学習」の考え方をご紹介しました。もう一度復習しておくと、機械学習とは「機械にデータを解析させ、データに潜む規則性(ルール)やパターンを発見、アルゴリズムを発展させていくプロセス」を指します。

 

 そして、機械学習には次の4種類の手法が良く使われています。

 今回は上図左下の「クラス分類」を採り上げて、教師あり学習についてご紹介します。ここで、機械の故障予測について考えてみます。

 機械には電圧・圧力など各種センサが取り付けられており、時々刻々とセンサ値そして状態(正常/故障)がデータとして蓄積されているものとします。

 上図の茶色枠で囲っているデータをご覧ください。「状態」列に何かしらの値が入っています。予測対象となる値(正解となる値)を持っているため、このデータを教師ありデータと呼びます。教師あり学習とは「教師ありデータを使って、データに潜むパターンや規則性の集合体であるモデルを作成するプロセス」を指します。

 次に、上図の赤枠で囲っているデータをご覧ください。状態列に値がありません。このデータを作成したモデルに適用すれば、状態列の値を予測することができます。以上のフローを図示すると次のようになります。

 以上が教師あり学習と予測分析の概要です。教師あり学習を行うアルゴリズムには次のようなものがあります。
・決定木
・k近傍法
・ナイーブベイズ
・ニューラルネットワーク
・サポートベクタマシン
・ディープニューラルネットワーク(ディープラーニング)※こちらの詳細は後日
※決定木アルゴリズムは説明しやすいモデルを作成します。

 今回ご紹介した教師あり学習・予測分析を実装できるオープンソース・無料のデータ分析ソフトはこちら。
RapidMiner:プログラミング不要、GUI操作で誰でも簡単に分析できる。
NYSOL:コマンドを記述して高速に分析できる。データ加工処理が得意。
Revolution R:R言語でスケーラブルなハイパフォーマンス分析環境を構築できる。
 ソフトは各リンク先から入手できますので、ぜひお試しください!

 次回は「教師なし学習」とは?何に使えるのか、をご紹介します。

著者プロフィール

株式会社KSKアナリティクス
データアナリスト 足立 悠(あだち はるか)

 大手電機メーカーでエンジニア、事業会社でデータ分析者を経てKSKアナリティクスへ入社。社内のデータ活用推進者としてマーケティング戦略、業務改善に関するデータ分析業務に携わる。テキストマイニング、レコメンデーション手法が得意。
 また、大学院(博士後期課程)にて人の行動データを使った予兆検出(複雑ネットワーク、トピックモデル)に関する研究に従事。

最新TOPICS

【AI】人工知能が「人工知能プログラム」を作成し始めた---Google Brainプロジェクトなどで確認、現状ではかなりの費用がかかる(2017年01月23日 10:03)

MITのレポートによると、 人工知能が人工知能プログラムを作成するようになってきている。 【ポイント】 ・Google Brainプロジェクトなどで確認 ・「人工知能が作成した人工知能プログラム」は、人間が開発したプロダクトと同等、または、上回っていた ・ただし、画像処理プロセッサを800台も協調作動させる必要がある (出所:http://jp.techcrunch.com/2...

関連タグ

回帰分析()

  • 用語集

「回帰分析」とは、2つの変数から相関関係や因果関係を導き出すために、一方の変数から将来的な値を予測するための予測式(回帰直線)を求める手法。

ドローン(Drone)

  • 用語集

無人で遠隔操作や自動制御によって飛行できる航空機の総称。

相関分析(Correlation Analysis)

  • 用語集

2つないし2つ以上の変量の間で、一方の変量が変化すると他方もそれに応じて変化する相関関係を統計的に分析する分析手法である。

ロジスティック回帰分析(Logistic regression)

  • 用語集

多変量解析の一種である。線形回帰分析が量的変数を予測するのに対して、ロジスティック回帰分析は質的確率を予測する。

ビッグデータ(Big Data)

ビッグデータの定義には、量的な側面と質的な側面が存在する。量的な側面としては、一般的なデータベースソフトウェアが把握し、蓄積し、運用し、分析できる能力を超えたサイズのデータを指す。全世界で1年間に発生するデータ量がゼタバイトの域に達している2015年現在は、テラバイトからペタバイトのデータ量に対してビッグデータと呼ぶ。

関連記事

  • KSKサイド003

facebook

twitter