機械学習とは?~データサイエンスを支える人工知能(AI)技術~ | 第一線で活躍するオープンソースエキスパートが綴るスペシャルコラム。

機械学習とは?~データサイエンスを支える人工知能(AI)技術~

データサイエンスの領域で使われる人工知能(AI)技術、機械学習やディープラーニング(深層学習)などを簡単に解りやすくお伝えします。

[2016年08月09日 ]
株式会社KSKアナリティクス
データアナリスト 足立 悠

 人工知能(AI)といえば、どのようなものを想像されるでしょうか?

 具体的に、ロボットが頭に浮かんだ方もいらっしゃるかもしれません。マンガやSFから挙げるなら、ドラえもんやコロ助、R2-D2とC-3POですね!もう少し現実的に挙げるなら、ソフトバンク社の「Pepper」やHanson Robotics社の「ソフィア」などです。
 また、ロボットのようにボディを持たないものとしては、マイクロソフト社のAI女子高生「りんな」やApple社の「Siri」などのアプリケーションが挙げられます。

 

 これらのシステムの中で、AIが膨大な量のデータを解析・学習する「機械学習」が行われ、その結果、自律的な行動や人間との対話などを実現しています(他に制御の技術も使用)。
 ここまではロボット・アプリの分野を例に挙げました。現在多くの企業・団体で必要とされているデータサイエンスの分野でも、先ほどと類似したプロセスでAI技術が使われています。以降はデータサイエンスの分野で、実際のビジネスケースを紹介しながらAI技術「機械学習」についてお伝えしていきます。


 皆さまが所属される企業・団体で、以下のような課題をお持ちではありませんか?
・機械/設備の故障を予測・異常を検出し、予防保全計画に役立てたい。
・自社サービスを解約する顧客を特定し、離反を防ぐ対策を立てたい。
・顧客ごとに適切な商品/サービスを推薦し、販売戦略に活かしたい。
・新商品の売れ行き(需要)を予測し、安全在庫を設定したい。
・コールセンターに寄せられる顧客クレームの要因を特定し、品質向上につなげたい。

 上記の課題はデータ分析(データマイニング)により解決できるとご存知の方も多いと思います。データマイニングでは、データに対して統計学やAI技術「機械学習」を適用し、有用な知識を取り出し活用します。では、このプロセスに含まれる機械学習について考えてみましょう。


 機械学習とは「機械にデータを解析させ、データに潜む規則性(ルール)やパターンを発見、アルゴリズムを発展させていくプロセス」を指します(冒頭でも紹介)。
 人手でルールやパターン発見を行うことはデータ量が少なければ実現できるかもしれません(例えば100行のデータを1行ずつ目視する)。しかし、センサログやコールログなど現実のデータは大規模かつ複雑になりつつあり、人間が処理できるレベルを超えています。機械に処理させることで、データから効率よく・効果的な知識発見が可能となります。


 センサログのような数値形式、アンケートの自由記述のようなテキスト形式など様々な種類のデータが存在します。そして、分析目的と入力データ形式に応じた「機械学習の手法」を選択・適用(解析)し、ルールやパターンを表現するモデルを作成、更により精度を高めるために学習させます。
 ここで、機械学習には次の4種類の手法が良く使われています。

 回帰分析は数値データの予測、クラス分類はデータのカテゴリを予測します。クラスタリングはデータをグループ化、パターン抽出は頻出するアイテムのセットを取り出します。各手法で使用する詳細なアルゴリズムは下記の表をご覧ください(一部、統計の手法も含みます)。

 いかがでしょう?なかなか堅苦しい・難しそうな名前が並んでいて、使ってみたいけど気後れされる方もいらっしゃるかもしれません。しかしご安心ください!上記のアルゴリズムを簡単に実装し、機械学習を実践できるオープンソース・無料のデータ分析ソフトがあります。
RapidMiner:プログラミング不要、GUI操作で誰でも簡単に分析できる。
NYSOL:コマンドを記述して高速に分析できる。データ加工処理が得意。
Revolution R:R言語でスケーラブルなハイパフォーマンス分析環境を構築できる。
 ソフト名のリンク先から入手できますので、ぜひお試しください!

 次回は、上の表中に記載している「教師あり学習」「教師なし学習」と、ニーズが高い「予測分析」の考え方についてご紹介します。

著者プロフィール

株式会社KSKアナリティクス
データアナリスト 足立 悠(あだち はるか)

 大手電機メーカーでエンジニア、事業会社でデータ分析者を経てKSKアナリティクスへ入社。社内のデータ活用推進者としてマーケティング戦略、業務改善に関するデータ分析業務に携わる。テキストマイニング、レコメンデーション手法を得意とし、現在はIoTデータの活用も推進中。
 また、大学院(博士後期課程)にて複雑ネットワーク、トピックモデルに関する研究に従事。高専(制御工学・ロボット)→大学(情報科学・人工知能)→大学院修士(数学・解析学)→大学院博士(物理学・データマイニング)と興味がある分野を転々とするなんちゃってオールマイティ型。

最新TOPICS

【IoT】IoTメガネ「JINS MEME」---かけた人の集中状態を捉え働き方改革へ(2017年01月20日 10:03)

眼鏡製造小売りのジェイアイエヌ(JINS)は、1月18日、 企業の生産性向上支援IoTソリューション「JINS MEME BUSINESS SOLUTIONS」を発表した。 センシング・アイウエア「JINS MEME(ジンズ・ミーム)」を使用する。 【JINS MEMEとは】 ・フレーム部分に「眼の動きを捉えるセンサー」「加速度センサー」を組み込んだメガネ ・「まばたき回数」「目の動...

関連タグ

コレスポンデンス分析()

  • 用語集

「コレスポンデンス分析」(Correspondence Analysis)とは、類似した項目を明らかにするため、各項目を数値化する分析手法である。

機械学習()

「機械学習」とは、人間が自然に行っている学習能力と同等の機能をコンピュータで実現しようとする技術や手法。データから反復的に学習しそこに潜むパターンを見つけ出す。

多変量解析入門()

  • 用語集

複数の変数に関するデータをもとに、変数間の相互関連を分析する統計的技法の総称。

デシル分析(Decile Analytics)

  • 用語集

「デシル分析(Decile Analytics)」とは、購買履歴データをもとに全顧客の購入金額を高い順に10等分し、各ランクの購入比率や売上高構成比などの有益な情報を得るための分析手法。

関連記事

  • KSKサイド005

facebook

twitter