教師あり学習から予測分析へ~データサイエンスを支える人工知能(AI)技術~ | 第一線で活躍するオープンソースエキスパートが綴るスペシャルコラム。

教師あり学習から予測分析へ~データサイエンスを支える人工知能(AI)技術~

データサイエンスの領域で使われる人工知能(AI)技術、機械学習やディープラーニング(深層学習)などを簡単に解りやすくお伝えします。

[2016年09月21日 ]
株式会社KSKアナリティクス
データアナリスト 足立 悠

 前回はデータ分析において重要な「機械学習」の考え方をご紹介しました。もう一度復習しておくと、機械学習とは「機械にデータを解析させ、データに潜む規則性(ルール)やパターンを発見、アルゴリズムを発展させていくプロセス」を指します。

 

 そして、機械学習には次の4種類の手法が良く使われています。

 今回は上図左下の「クラス分類」を採り上げて、教師あり学習についてご紹介します。ここで、機械の故障予測について考えてみます。

 機械には電圧・圧力など各種センサが取り付けられており、時々刻々とセンサ値そして状態(正常/故障)がデータとして蓄積されているものとします。

 上図の茶色枠で囲っているデータをご覧ください。「状態」列に何かしらの値が入っています。予測対象となる値(正解となる値)を持っているため、このデータを教師ありデータと呼びます。教師あり学習とは「教師ありデータを使って、データに潜むパターンや規則性の集合体であるモデルを作成するプロセス」を指します。

 次に、上図の赤枠で囲っているデータをご覧ください。状態列に値がありません。このデータを作成したモデルに適用すれば、状態列の値を予測することができます。以上のフローを図示すると次のようになります。

 以上が教師あり学習と予測分析の概要です。教師あり学習を行うアルゴリズムには次のようなものがあります。
・決定木
・k近傍法
・ナイーブベイズ
・ニューラルネットワーク
・サポートベクタマシン
・ディープニューラルネットワーク(ディープラーニング)※こちらの詳細は後日
※決定木アルゴリズムは説明しやすいモデルを作成します。

 今回ご紹介した教師あり学習・予測分析を実装できるオープンソース・無料のデータ分析ソフトはこちら。
RapidMiner:プログラミング不要、GUI操作で誰でも簡単に分析できる。
NYSOL:コマンドを記述して高速に分析できる。データ加工処理が得意。
Revolution R:R言語でスケーラブルなハイパフォーマンス分析環境を構築できる。
 ソフトは各リンク先から入手できますので、ぜひお試しください!

 次回は「教師なし学習」とは?何に使えるのか、をご紹介します。

著者プロフィール

株式会社KSKアナリティクス
データアナリスト 足立 悠(あだち はるか)

 大手電機メーカーでエンジニア、事業会社でデータ分析者を経てKSKアナリティクスへ入社。社内のデータ活用推進者としてマーケティング戦略、業務改善に関するデータ分析業務に携わる。テキストマイニング、レコメンデーション手法が得意。
 また、大学院(博士後期課程)にて人の行動データを使った予兆検出(複雑ネットワーク、トピックモデル)に関する研究に従事。

最新TOPICS

【講演資料を公開】7/28【サービス事業者向け】中小企業が狙われた、サプライチェーン攻撃の手口を解説 ~サイバー攻撃の被害に遭う中小企業の3つの共通点と、その対策~(2022年08月27日 09:15)

2022-07-28(木)15:00 - 16:00 「【サービス事業者向け】中小企業が狙われた、サプライチェーン攻撃の手口を解説 ~サイバー攻撃の被害に遭う中小企業の3つの共通点と、その対策~」 と題したウェビナーが開催されました。 皆様のご参加、誠にありがとうございました。 当日の資料は以下から無料でご覧いただけます。 ご興味のある企業さま、ぜひご覧ください。

関連タグ

畳み込みニューラルネットワーク(Convolutional Neural Network)

  • 用語集

文字どおり、畳み込み(コンボリューション)を加えたニューラルネットワークの一種。個々のニューロンが視覚野と対応するような形で配置されており、画像や動画認識に広く使われる。

データウェアハウス(Data Warehouse)

  • 用語集

「データウェアハウス(DWH:Data WareHouse)」とは、ビジネスインテリジェンスに活用するための「データ倉庫」を意味し、目的別かつ時系列に編成/統合され、削除や更新されないデータ集合体(データベースシステム)を指す。

教育()

  • タグ

主成分分析(Principal Component Analysis)

  • 用語集

「主成分分析」とは、ビッグデータをはじめとした多変量データを統合し新たな総合指標を作り出し、多くの変数にウェイトをつけて少数の合成変数を作る統計手法である。ビッグデータ分析の現場などにおいて、多変量の情報をできるだけ損なわずに低次元空間に縮約する。多変量データを二次元や三次元データに縮約することで、データ全体の視覚化が可能となり、データのもつ情報を解釈しやすくなる。

コンジョイント分析(Conjoint Analysis)

  • 用語集

商品やサービスを構成する要素の最適な組み合わせを探るために多変量解析を用いた分析方法。

関連記事

無料資料プレゼント

2021/03/04 セキュリティDAYS Keyspider資料

講演資料を見るには、 プライバシーポリシーに同意して、送付先メールアドレスをご入力しご請求ください。

またご入力いただきました情報は、当該資料の作成・提供企業とも共有させていただき、当社及び各社のサービス、製品、セミナー、イベントなどのご案内に使用させていただきます。

本資料を見るには次の画面でアンケートに回答していただく必要があります。



セミナー講演資料公開中

【企業ネットワーク向け】ローカルブレイクアウト、適用できないSaaSはありませんか?通信速度や運用に課題はありませんか? 〜LBOに最適なネットワーク機器や管理ツールによる解決策をご提案〜

ハイブリッドワークにおける電話の新しいカタチ ~セールスプロセスを最適化する次世代クラウドビジネスフォン~

ネットワークエンジニアの減少で負担が増える、企業のネットワーク運用管理 〜監視と管理の統合により、さらなる運用効率化を実現〜

  • 書籍

Analytics News ACCESS RANKING

facebook

twitter