[2015年12月24日 ]
株式会社KSKアナリティクス
データアナリスト 足立 悠
ETL(Extract Transform Load)とは、外部の情報源からデータを抽出(Extract)し、データウェアハウスなどで利用しやすい形に変換・加工(Transform)し、データベースに書き出す(Load)までの一連の工程を指します(※3)。
データベースの種類によって、様々な形式でデータは保管されています。データをデータウェアハウス(DWH)へ統合するときは、保管形式を統一しなければなりません。また、分析のために必要な値が欠けているなど欠損値を補間したり、不正な値を削除したりなどの処理も必要です。ETL処理は、データ分析にとって避けては通れない作業と言えます。
ETL処理後、データをDWHへ統合すれば、いよいよBI機能を使って知識発見へと進んでいきます。
BIには「OLAP」「レポーティング」「ダッシュボード」と大きく3つの機能があります。
OLAP(On-Line Analytical Processing)とは、DWH(もしくはデータベース)に蓄積された大量のデータに対し複雑な集計、分析を行い、素早く結果を提示する仕組みです(※4)。ここに、ある企業の製品の売上げデータがあるとします。
製品の売上データは、製品名、売上日、店舗コード、金額の4項目の情報を持っています。例えば売上分析を行いたいとき、このままでは、データを一行ずつ確認していかなくてはならず、非常に効率が悪い作業となってしまいます。そこで、データを製品、期間、店舗の「どの軸で確認したいか」を指定すれば、OLAP機能が指定した条件に従ってデータを高速に集計し、結果を表示してくれる、というわけです。
レポーティングとは、OLAPで集計した結果を、表・グラフなどを用いて報告書形式に変換し、紙媒体、電子媒体(PDFなど)へ出力することです。
ダッシュボードとは、会議や打合せの場、日々の進捗確認のために必要な情報を(一画面に)まとめて表示することです。ウェブブラウザを介して情報が共有されることが多くなっています。
それでは最後に、BI機能を実現するソフトウェアについて紹介しましょう。
次のページへ続く
大手電機メーカーでエンジニア、事業会社でデータ分析者を経てKSKアナリティクスへ入社。機械学習・ディープラーニングを用いたレコメンデーション、異常検知を得意とする。また、分析セミナー講師や技術雑誌への記事執筆も行う。
スイス国内で2番目に利用者数の多いジュネーブ空港は、 「乗客が行列に並ぶ時間を半減」「業績を前年度の5倍以上にアップ」に成功している。 【改善方法】 ・施設内でBluetoothとWi-Fiセンサーを活用 ・乗客のリアルタイム計測/高度データ分析 ・空港スタッフ数の最適化 ・セキュリティチェックの可視化 ・Wi-Fiセンサーは空港内各所に設置 →行列に並んでいる人数/待ち時間...
Analytics News ACCESS RANKING