ディープラーニングとは?(後編)~データサイエンスを支える人工知能(AI)技術~ | 第一線で活躍するオープンソースエキスパートが綴るスペシャルコラム。

ディープラーニングとは?(後編)~データサイエンスを支える人工知能(AI)技術~

データサイエンスの領域で使われる人工知能(AI)技術、機械学習やディープラーニング(深層学習)などを簡単に解りやすくお伝えします。

[2017年01月05日 ]
株式会社KSKアナリティクス
データアナリスト 足立 悠

 前回はニューラルネットワーク・アルゴリズムの概要をご紹介しました。ニューラルネットワークとは、教師あり学習のアルゴリズムの一つです。そして、ディープラーニングはニューラルネットワークを進化させたアルゴリズムです。つまり、数値データを使った回帰・分類を行い予測できます。前回と同じく機械・設備の故障予測をテーマに考えると、学習モデルのイメージは次のようなものです。

 ディープラーニングのモデル構造は、ニューラルネットワークのそれとほぼ同じです。ニューラルネットワークでの問題(中間層を深くすると学習が適切に行われない)は、ディープラーニングでは解消されています。そのため中間層を深くでき、精度の高いモデルを構築できることが特長です。
 モデルの見方はニューラルネットワークと同じく、一番左列が入力層、中央列が中間層、一番右列が出力層です。順伝播と逆伝播を繰り返し学習します。ディープラーニングはこの学習に素晴らしいトリックが隠されています。

 先ほど記載した「ニューラルネットワークでの問題(中間層を深くすると学習が適切に行われない)」は、「勾配消失問題」と呼ばれます。勾配は、学習時に重み(前回の記事を参照)の更新のため計算される量です。この問題は2006年にトロント大学のHinton博士によって解消され、ここからディープラーニングが始まりました。
 勾配消失問題のカギは「事前学習」にあり、そのアルゴリズムに「自己符号化器(Autoencoder)」があります。自己符号化器は、入力データのみで学習する教師なし学習を行います。モデルのイメージは以下のとおりです。

入力層と出力層を同じノード数に設定し、出力値を入力値に近付けるよう(自分自身を再現できるよう)重みを更新しながら学習することが特徴です。事前学習を行い、ネットワークの中間層を順に作成していきます。

このように1層ずつ中間層を学習・作成していくことで、勾配消失問題を解消できるようになり、今日ディープラーニングは社会で大いに活躍しています。またこの手法は、Googleの猫認識のニュースで注目を集めました。

 ここからは、ディープラーニングが従来の機械学習のアルゴリズムと異なり<賢い>点についてお伝えします。次の例を考えてみましょう。前から一人の人間が歩いてきます。その人が男性か女性かを見分けて(分類して)みましょう。ただし、データ(年齢・出身地・身長・体重・髪の長さ・スカート着用・咽喉の凹凸)のみで判断する場合、何に着目すべきでしょうか?
 ここで、見分けるために使える属性は「髪の長さ」「スカート着用」「咽喉の凹凸」です。従来の機械学習はこれら属性を「人」が抽出しますが、ディープラーニングは「マシン」が「自動的に」抽出します。

 以上が、ディープラーニングのアルゴリズム概要と特長です。ディープラーニングは、以下のソフトで実装できます!ぜひお試しください。
RapidMiner:プログラミング不要、GUI操作で誰でも簡単に分析できる。
TensorFlow:Google社製。Python言語でディープラーニングを実装できる。

著者プロフィール

株式会社KSKアナリティクス
データアナリスト 足立 悠(あだち はるか)

 大手電機メーカーでエンジニア、事業会社でデータ分析者を経てKSKアナリティクスへ入社。社内のデータ活用推進者としてマーケティング戦略、業務改善に関するデータ分析業務に携わる。テキストマイニング、レコメンデーション手法が得意。
 また、大学院(博士後期課程)にて人の行動データを使った予兆検出(複雑ネットワーク、トピックモデル)に関する研究に従事。

最新TOPICS

【AI】AI国内市場予測---「AI導入検討中=17.9%」「年平均20.4%で成長」「米独市場と比べて高い成長率を維持」(2017年05月25日 10:03)

MM総研がAI国内市場予測を発表した。 【ポイント】 日本企業 ・人工知能(AI)をビジネスに導入している=1.8% ・導入検討中=17.9% AIの国内市場規模 ・2016年度=2220億円(前年度比約2倍) AIの国内市場規模成長予測 ・年平均20.4%で成長 ・2021年には5610億円に達する予測 ・米独市場と比べて高い成長率を維持

関連タグ

R(アール)

  • 用語集

「R」を用いることで、クロス集計や回帰分析、クラスター分析、シミュレーションなどの基本的な統計分析が可能となる。またオープンソースとしてだけでなく、パッケージを導入することで最新の分析手法を実行することもできる。

サイバーフィジカルシステム(Cyber-Physical System)

  • 用語集

これまで「経験と勘」に頼っていた事象を効率化し、より高度な社会を実現するためのサービスおよびシステム。

クラスター分析(Cluster analysis)

  • 用語集

異なる性質のものが混ざりあっている集合体から互いに似たものを集めてグループ(Cluster)を作り、対象を分析する手法。

ロジスティック回帰分析(Logistic regression)

  • 用語集

多変量解析の一種である。線形回帰分析が量的変数を予測するのに対して、ロジスティック回帰分析は質的確率を予測する。

農業()

  • タグ

関連記事

  • KSKサイド002

facebook

twitter