分析に必要とされるさまざまな非定型データを収集/整形し、迅速な分析開始のためのサポートを行う機能。
データ・プレパレーションとは
■概要
■データ・プレパレーションが注目される理由
→モダンBIツールの登場
→増大するデータ量
→複雑化するデータフォーマット
→データ準備工程の負担拡大
→セルフサービスBI(IT部門とビジネス部門のコネクトプラットフォーム)
→コーディング不要のデータ分析
→AI(機械学習)の予測モデル構築
■関連用語説明
→「ETL」と「データ・プレパレーション」
→「データウェアハウス」と「データレイク」
■データ・プレパレーションにおける主なプロセス
■データ・プレパレーションツールの主な機能
→データ可視化機能
→データ収集(連携)機能
→データ変換(整形/結合)機能
→データエクスポート機能
→データ分析機能
→高速データ処理機能
■メインストリームとなるデータ・プレパレーション
データ・プレパレーションとは「分析に必要とされるさまざまな非定型データを収集/整形し、迅速な分析開始のためのサポートを行う機能」を意味する。
データ・プレパレーションを直訳すると「データの準備」であり、さまざまなデータソースから大量のデータを取得し、次のデータ分析ステップのための準備を行う。ビッグデータを含むあらゆるデータに対して、迅速な準備処理を行い、アナリストやビジネスユーザーに提供し、スピーディな分析サポートを行う。
ビジネス部門でのデータ活用を促進できるデータ・プレパレーションは、企業のイノベーションを生み出すキーテクノロジーとして大きな注目を集めている。
モダンで使いやすいBI(Business Intelligence)ツールが多数登場してきていることで、ビジネス部門ユーザーがセルフサービスでデータ分析を行う「セルフサービスBI」を実施できる環境が整いつつある。
しかし、データ分析のためには良質なベースとなるデータが必要であり、BIツールの性能がいくら向上しても、分析の事前準備として、データの収集/結合/変換/整形/補完などの工程が必要であることは変わらない。
モダンBIツールの登場により、さらに、迅速なベースデータ準備作業が必要になっている。
データ分析の対象範囲は、「ビッグデータ処理技術の発達」「クラウド技術の浸透」「データストリーミング技術の向上」「IoTデバイスの増大」などの理由により、加速度的に増大している。
そのため、大量のデータを迅速に準備処理できる高速性が求められている。主なデータ分析対象範囲
非構造型データ(JSON/XMLなど)が増大し、データの複雑性が深まっている。
これまでのように、単純に定形型データを処理すればよいということはなく、さまざまな加工処理が必要となり、データ準備の工程についても、より一層複雑化している。
多様化するデータを活用するためには、従来型アプローチでのデータ準備では不十分であり、最新テクノロジーを駆使する新たなアプローチである「データ・プレパレーション」への期待は高まっている。
Excelで処理できる程度のデータ量であった頃なら、Excelでデータ全体を俯瞰し、セルの色分け/フォント変更などの工夫により、かなりの作業時間を必要としていたが、地道な力技で、欠損値/外れ値の修正作業を行えていた。
しかし、データ量は増大し、データが複雑化すると、人力でのデータ整形作業は非常に困難であり、過度な負担と膨大な時間を必要とする状況になってきている。データ分析において「データ準備80%、データ分析20%」と言われており、データ分析前段階作業に時間を取られてしまい、本来行うべきデータ分析に時間をかけることができないという状況が発生している。
このような要因もあり、ビジネス推進を阻害する要因解消のため、データ準備の生産性向上は喫緊の課題として認識され始めている。データ・プレパレーションは、この領域をカバーする新しい取り組みとして注目を集めている。
社内外のあらゆるデータを迅速に準備し、活用するためには、IT部門とビジネス部門の積極的なコラボレーションが必要不可欠になりつつあり、データ・プレパレーションはその基盤として期待されている。
データ・プレパレーション(ツール)を導入すると、これまでIT部門が担当していた各種データプロセス(収集/抽出/加工など)をビジネス部門に移行し、ビジネス部門ユーザーがデータを準備し、データ活用を行う「セルフサービスBI」を実現できるようになる。
IT部門がデータの統制を効かせつつ、ビジネス部門ユーザーは、IT部門にデータ準備やデータ分析を依頼しなくても、使いやすいデータを得ることができるようになり、各種アナリティクスや機械学習などを利用し、データからさまざまな知見を得ることが可能になる。
ビジネス部門ユーザーはデータの中身については熟知しているものの、IT部門ほどのITスキルやデータ処理の専門的な知識を持ち合わせていないため、必要なデータを得るために、逐一、IT部門へ依頼を行うという状況が繰り返されてきた。
データ・プレパレーションツールは、コーディング不要で、GUIベースで操作を行えるという大きなメリットがある。ビジネス部門のユーザーは、直感的なGUIインタフェースを利用し、データ処理フローを定義して自動化できる。また、分析用途に合わせて、簡単に処理内容の修正を行える。
データ・プレパレーションツールを導入すると、IT部門でのデータ処理の完了を待つ必要がなくなるため、データ分析を開始するまでの時間を大幅に短縮することが可能になる。
これまでのデータ活用として、統計分析やダッシュボードなど、過去データを分析し、過去状況を把握することで、未来に何をすればよいのか知見を得るようなデータの使い方が主流とされてきた。
しかし、機械学習やディープラーニングに代表されるようなAI技術の発展により、未来を予測するデータの使い方ができるようになってきている。
機械学習を行うためには、良質な教師データを大量に読み込ませる必要があるが、このデータ準備には膨大な手間がかかるという問題があった。この領域についても、データ・プレパレーション技術が注目されている。
データ・プレパレーションツールにより、大量データから、良質な教師データを作成することにより、より正確に、より早く予測モデルを作り、分析を行うことが可能となる。
「ETL」とは「Extract,Transform,Load」の略であり、企業内に存在する複数のシステムデータを対象として、「データ抽出→変換/加工→出力」を行う仕組みである。使用するためには高いITスキルが要求されるため、主に、IT部門エンジニアが複雑なロジックを用いてデータストアを構築する。価格は数千万円に達するケースもあり、導入までには、非常に長い時間がかかる。
「データ・プレパレーション」は「ビジネス部門ユーザーによるアジャイルでライトなデータ活用」を想定しており、「大幅に機能を限定したシンプルなETL」ともいえる。「ETL」と「データ・プレパレーション」を連携させることで、さらに価値を高める分析を行うことも可能とされる。
「ETL」は高価でオーバースペックであるため導入できなかった中小企業でも、「データ・プレパレーション」なら導入を行いやすいというメリットがある。
「データウェアハウス(Data Warehouse)」とは、構造化データストアのことで、分析目的を事前に定義した上で設計に沿ってデータを格納する。
一方、「データレイク(Data Lake)」とは、非構造化データストアのことで、事前設計のないままで、さまざまなフォーマット(構造化されていなかったり、RDBには入りきらない形式)のデータを格納する。
近年では、非構造化データが増大しており、データウェアハウスのみでの対応が難しくなっている。さまざまな種類のデータを、一旦、データレイク(構造化/⾮構造化共通の器)に集約し、そこから、「データウェアハウスを作成」したり、「データ・プレパレーションによる分析⽬的に応じたデータの取り出しと整形」を行う手法が主流になりつつある。
データ・プレパレーションのプロセスとして、主に、次のようなものがある。
(1)データ収集
(2)データ全体を俯瞰
(3)データフォーマット統一
(4)クレンジング(欠損値や外れ値を確認し修正)
(5)ブレンディング(データ結合)
(6)データ検証
(7)データエクスポート
主要なデータ・プレパレーションツールで利用できる主な機能について紹介する。
主要なデータ・プレパレーションツールは、データ可視化機能を持つ。既存のETLツールのような「データフローを作成するワークベンチツール」ではなく、Excelのような「スプレッドシートですべてのデータを可視化できるインターフェース」を提供している。
専門ITスキルがなくても、データ全体を俯瞰することができるため、データに精通しているビジネス部門ユーザーが、データ・プレパレーションのプロセス全体を理解しやすいメリットがある。
その他に、「ピボットテーブル機能」「高度なフィルタ機能」「データヒストグラム自動作成機能」「重複データ色分け表示機能」など、さまざまなデータ可視化機能が搭載されている。
データ・プレパレーションツールは、さまざまなデータソースにアクセスして、データを取得できる。
主なデータソース
データ収集機能により格納されたデータは非構造化データであり、データフォーマットが不統一であるため、そのままの状態で使えるデータはほとんど存在しない。
多くのデータ・プレパレーションツールは、データ分析で活用しやすくするためのデータの変換(整形/結合)機能を備えている。
主な機能① JSONデータ可視化機能
そのままでは判読しづらいJSONデータに対して、自動的に構造化を行い、人間が理解しやすいように可視化できる。
主な機能② 複数データ結合機能
複数のデータセットを特定のキー情報で1つのデータセットに統合できる。どの項目をキー項目にするべきかについて提案してくれるツールも存在しており、「SQLにおけるJOIN処理」や「ExcelにおけるVLOOKUP機能」を理解していなくても、クリック1つでデータを結合できる。
主な機能③ データ補正(補完)サポート機能
データの中には「異常値」や「⽋損値」などが含まれているため、それらを適正に補正する必要がある。
ツールの中には、機械学習アルゴリズムを活用し、値にバラツキのある項目に関して、類似データをクラスタリングし、修正候補をレコメンドしてくれるものもある。
主な機能④ プレビュー機能
データ変換処理を実行する前に、プレビュー表示で変換後のデータを確認できる。処理方法と処理内容について、対話的に確認をしながら、データ・プレパレーションを進めることができる。
データ変換(整形/結合)機能により作成されたアンサーセットについて、多彩なフォーマットでエクスポートを行える。
主なフォーマット
データ分析機能も含むツールも存在している。
「予測分析」「Googleマップ上へのデータプロット」「人口統計を融合」「空間分析」などの分析を行える。
大量のデータを処理する必要があるため、データ・プレパレーションツールには、処理の高速性も求められる。
活用可能な主な高速化技術
「近い将来、多くのビジネスユーザーやアナリストは、分析のためのデータ準備として、セルフサービスツールを利用する」という予測もされている。
データ・プレパレーションは、「生産性向上」「企業イノベーション活性化」「新たな価値創出」を達成するためのキーテクノロジーとなりつつある。
「データ分析」とともに、「データ・プレパレーション」が今後のメインストリームになることが予想されている。
Analytics News ACCESS RANKING