機械学習とは?~データサイエンスを支える人工知能(AI)技術~ | 第一線で活躍するオープンソースエキスパートが綴るスペシャルコラム。

機械学習とは?~データサイエンスを支える人工知能(AI)技術~

データサイエンスの領域で使われる人工知能(AI)技術、機械学習やディープラーニング(深層学習)などを簡単に解りやすくお伝えします。

[2016年08月09日 ]
株式会社KSKアナリティクス
データアナリスト 足立 悠

 人工知能(AI)といえば、どのようなものを想像されるでしょうか?

 具体的に、ロボットが頭に浮かんだ方もいらっしゃるかもしれません。マンガやSFから挙げるなら、ドラえもんやコロ助、R2-D2とC-3POですね!もう少し現実的に挙げるなら、ソフトバンク社の「Pepper」やHanson Robotics社の「ソフィア」などです。
 また、ロボットのようにボディを持たないものとしては、マイクロソフト社のAI女子高生「りんな」やApple社の「Siri」などのアプリケーションが挙げられます。

 

 これらのシステムの中で、AIが膨大な量のデータを解析・学習する「機械学習」が行われ、その結果、自律的な行動や人間との対話などを実現しています(他に制御の技術も使用)。
 ここまではロボット・アプリの分野を例に挙げました。現在多くの企業・団体で必要とされているデータサイエンスの分野でも、先ほどと類似したプロセスでAI技術が使われています。以降はデータサイエンスの分野で、実際のビジネスケースを紹介しながらAI技術「機械学習」についてお伝えしていきます。


 皆さまが所属される企業・団体で、以下のような課題をお持ちではありませんか?
・機械/設備の故障を予測・異常を検出し、予防保全計画に役立てたい。
・自社サービスを解約する顧客を特定し、離反を防ぐ対策を立てたい。
・顧客ごとに適切な商品/サービスを推薦し、販売戦略に活かしたい。
・新商品の売れ行き(需要)を予測し、安全在庫を設定したい。
・コールセンターに寄せられる顧客クレームの要因を特定し、品質向上につなげたい。

 上記の課題はデータ分析(データマイニング)により解決できるとご存知の方も多いと思います。データマイニングでは、データに対して統計学やAI技術「機械学習」を適用し、有用な知識を取り出し活用します。では、このプロセスに含まれる機械学習について考えてみましょう。


 機械学習とは「機械にデータを解析させ、データに潜む規則性(ルール)やパターンを発見、アルゴリズムを発展させていくプロセス」を指します(冒頭でも紹介)。
 人手でルールやパターン発見を行うことはデータ量が少なければ実現できるかもしれません(例えば100行のデータを1行ずつ目視する)。しかし、センサログやコールログなど現実のデータは大規模かつ複雑になりつつあり、人間が処理できるレベルを超えています。機械に処理させることで、データから効率よく・効果的な知識発見が可能となります。


 センサログのような数値形式、アンケートの自由記述のようなテキスト形式など様々な種類のデータが存在します。そして、分析目的と入力データ形式に応じた「機械学習の手法」を選択・適用(解析)し、ルールやパターンを表現するモデルを作成、更により精度を高めるために学習させます。
 ここで、機械学習には次の4種類の手法が良く使われています。

 回帰分析は数値データの予測、クラス分類はデータのカテゴリを予測します。クラスタリングはデータをグループ化、パターン抽出は頻出するアイテムのセットを取り出します。各手法で使用する詳細なアルゴリズムは下記の表をご覧ください(一部、統計の手法も含みます)。

 いかがでしょう?なかなか堅苦しい・難しそうな名前が並んでいて、使ってみたいけど気後れされる方もいらっしゃるかもしれません。しかしご安心ください!上記のアルゴリズムを簡単に実装し、機械学習を実践できるオープンソース・無料のデータ分析ソフトがあります。
RapidMiner:プログラミング不要、GUI操作で誰でも簡単に分析できる。
NYSOL:コマンドを記述して高速に分析できる。データ加工処理が得意。
Revolution R:R言語でスケーラブルなハイパフォーマンス分析環境を構築できる。
 ソフト名のリンク先から入手できますので、ぜひお試しください!

 次回は、上の表中に記載している「教師あり学習」「教師なし学習」と、ニーズが高い「予測分析」の考え方についてご紹介します。

著者プロフィール

株式会社KSKアナリティクス
データアナリスト 足立 悠(あだち はるか)

 大手電機メーカーでエンジニア、事業会社でデータ分析者を経てKSKアナリティクスへ入社。社内のデータ活用推進者としてマーケティング戦略、業務改善に関するデータ分析業務に携わる。テキストマイニング、レコメンデーション手法を得意とし、現在はIoTデータの活用も推進中。
 また、大学院(博士後期課程)にて複雑ネットワーク、トピックモデルに関する研究に従事。高専(制御工学・ロボット)→大学(情報科学・人工知能)→大学院修士(数学・解析学)→大学院博士(物理学・データマイニング)と興味がある分野を転々とするなんちゃってオールマイティ型。

最新TOPICS

【ビッグデータ】日立+東大+産総研、移動体ビッグデータアクセス仕様「Moving Features Access」が国際標準採択(2017年03月27日 10:03)

日立製作所、東京大学、国立研究開発法人産業技術総合研究所(産総研)は、3月13日、 データアクセス仕様「Moving Features Access」が、地理空間情報国際標準化団体「Open Geospatial Consortium」の国際標準として採択されたと発表した。 【ポイント】 ・「Moving Features Access」=位置情報へのデータアクセス仕様 ・移動体(人/...

関連タグ

非構造化データ()

  • 用語集

「非構造化データ」とは、企業の基幹システムに保管されている構造化データに対し、日常業務で増える電子文書や紙文書、写真、動画、音声、Webコンテンツなど構造化されていないデータを指す。

データマネージメント(Data Management)

  • 用語集

データを蓄積する仕組みの構築や運用、データ構造の可視化やデータの意味管理などを行いながらデータを適切に管理することで、データの信頼性・整合性を確保すること。

ベイズ理論()

  • 用語集

18世紀のイギリスの数学者であるトーマス・ベイズによって示された条件付き確率に関して成り立つ定理に基づく理論。

ディープラーニング(Deep Learning)

  • 用語集

「ディープラーニング(Deep Learning:深層学習)」とは、コンピュータによる機械学習の1種であり、人間の脳の階層構造をコンピュータで再現しようと言うアイデアに基づいた「ニューラルネットワーク」を改良し、画像や音声などの認識や、自動運転などの複雑な判断を可能にする。

クラウド・コンピューティング(Cloud Computing)

  • 用語集

「クラウド・コンピューティング」とは、データを、パソコンや携帯端末ではなく、インターネット上に保存する使い方やサービス。

関連記事

  • KSKサイド004

facebook

twitter