データ・プレパレーション(Data Preparation)とは

分析に必要とされるさまざまな非定型データを収集/整形し、迅速な分析開始のためのサポートを行う機能。

データ・プレパレーションとは
 ■概要
 ■データ・プレパレーションが注目される理由
→モダンBIツールの登場
→増大するデータ量
→複雑化するデータフォーマット
→データ準備工程の負担拡大
→セルフサービスBI(IT部門とビジネス部門のコネクトプラットフォーム)
→コーディング不要のデータ分析
→AI(機械学習)の予測モデル構築
■関連用語説明
→「ETL」と「データ・プレパレーション」
→「データウェアハウス」と「データレイク」
■データ・プレパレーションにおける主なプロセス
 ■データ・プレパレーションツールの主な機能
→データ可視化機能
→データ収集(連携)機能
→データ変換(整形/結合)機能
→データエクスポート機能
→データ分析機能
→高速データ処理機能
■メインストリームとなるデータ・プレパレーション

データ・プレパレーションとは

概要

データ・プレパレーションとは「分析に必要とされるさまざまな非定型データを収集/整形し、迅速な分析開始のためのサポートを行う機能」を意味する。

データ・プレパレーションを直訳すると「データの準備」であり、さまざまなデータソースから大量のデータを取得し、次のデータ分析ステップのための準備を行う。ビッグデータを含むあらゆるデータに対して、迅速な準備処理を行い、アナリストやビジネスユーザーに提供し、スピーディな分析サポートを行う。

ビジネス部門でのデータ活用を促進できるデータ・プレパレーションは、企業のイノベーションを生み出すキーテクノロジーとして大きな注目を集めている。

データ・プレパレーションが注目される理由

モダンBIツールの登場

モダンで使いやすいBI(Business Intelligence)ツールが多数登場してきていることで、ビジネス部門ユーザーがセルフサービスでデータ分析を行う「セルフサービスBI」を実施できる環境が整いつつある。

しかし、データ分析のためには良質なベースとなるデータが必要であり、BIツールの性能がいくら向上しても、分析の事前準備として、データの収集/結合/変換/整形/補完などの工程が必要であることは変わらない。

モダンBIツールの登場により、さらに、迅速なベースデータ準備作業が必要になっている。

増大するデータ量

データ分析の対象範囲は、「ビッグデータ処理技術の発達」「クラウド技術の浸透」「データストリーミング技術の向上」「IoTデバイスの増大」などの理由により、加速度的に増大している。

そのため、大量のデータを迅速に準備処理できる高速性が求められている。

主なデータ分析対象範囲

IT部門が管理している社内システムデータ(リレーショナルデータベース、NoSQLデータベース)
ビッグデータ(Hadoop)
クラウドデータ
IoT(M2M)データ
各種市場データ
SNSデータ
ストリーミングデータ　など

複雑化するデータフォーマット

非構造型データ(JSON/XMLなど)が増大し、データの複雑性が深まっている。

これまでのように、単純に定形型データを処理すればよいということはなく、さまざまな加工処理が必要となり、データ準備の工程についても、より一層複雑化している。

多様化するデータを活用するためには、従来型アプローチでのデータ準備では不十分であり、最新テクノロジーを駆使する新たなアプローチである「データ・プレパレーション」への期待は高まっている。

データ準備工程の負担拡大

Excelで処理できる程度のデータ量であった頃なら、Excelでデータ全体を俯瞰し、セルの色分け/フォント変更などの工夫により、かなりの作業時間を必要としていたが、地道な力技で、欠損値/外れ値の修正作業を行えていた。

しかし、データ量は増大し、データが複雑化すると、人力でのデータ整形作業は非常に困難であり、過度な負担と膨大な時間を必要とする状況になってきている。データ分析において「データ準備80％、データ分析20％」と言われており、データ分析前段階作業に時間を取られてしまい、本来行うべきデータ分析に時間をかけることができないという状況が発生している。

このような要因もあり、ビジネス推進を阻害する要因解消のため、データ準備の生産性向上は喫緊の課題として認識され始めている。データ・プレパレーションは、この領域をカバーする新しい取り組みとして注目を集めている。

セルフサービスBI(IT部門とビジネス部門のコネクトプラットフォーム)

社内外のあらゆるデータを迅速に準備し、活用するためには、IT部門とビジネス部門の積極的なコラボレーションが必要不可欠になりつつあり、データ・プレパレーションはその基盤として期待されている。

データ・プレパレーション(ツール)を導入すると、これまでIT部門が担当していた各種データプロセス(収集/抽出/加工など)をビジネス部門に移行し、ビジネス部門ユーザーがデータを準備し、データ活用を行う「セルフサービスBI」を実現できるようになる。

IT部門がデータの統制を効かせつつ、ビジネス部門ユーザーは、IT部門にデータ準備やデータ分析を依頼しなくても、使いやすいデータを得ることができるようになり、各種アナリティクスや機械学習などを利用し、データからさまざまな知見を得ることが可能になる。

コーディング不要のデータ分析

ビジネス部門ユーザーはデータの中身については熟知しているものの、IT部門ほどのITスキルやデータ処理の専門的な知識を持ち合わせていないため、必要なデータを得るために、逐一、IT部門へ依頼を行うという状況が繰り返されてきた。

データ・プレパレーションツールは、コーディング不要で、GUIベースで操作を行えるという大きなメリットがある。ビジネス部門のユーザーは、直感的なGUIインタフェースを利用し、データ処理フローを定義して自動化できる。また、分析用途に合わせて、簡単に処理内容の修正を行える。

データ・プレパレーションツールを導入すると、IT部門でのデータ処理の完了を待つ必要がなくなるため、データ分析を開始するまでの時間を大幅に短縮することが可能になる。

AI(機械学習)の予測モデル構築

これまでのデータ活用として、統計分析やダッシュボードなど、過去データを分析し、過去状況を把握することで、未来に何をすればよいのか知見を得るようなデータの使い方が主流とされてきた。

しかし、機械学習やディープラーニングに代表されるようなAI技術の発展により、未来を予測するデータの使い方ができるようになってきている。

機械学習を行うためには、良質な教師データを大量に読み込ませる必要があるが、このデータ準備には膨大な手間がかかるという問題があった。この領域についても、データ・プレパレーション技術が注目されている。

データ・プレパレーションツールにより、大量データから、良質な教師データを作成することにより、より正確に、より早く予測モデルを作り、分析を行うことが可能となる。

データ・プレパレーションにおける主なプロセス

データ・プレパレーションのプロセスとして、主に、次のようなものがある。

(1)データ収集

(2)データ全体を俯瞰

(3)データフォーマット統一

(4)クレンジング(欠損値や外れ値を確認し修正)

(5)ブレンディング(データ結合)

(6)データ検証

(7)データエクスポート

データ・プレパレーションツールの主な機能

主要なデータ・プレパレーションツールで利用できる主な機能について紹介する。

データ可視化機能

主要なデータ・プレパレーションツールは、データ可視化機能を持つ。既存のETLツールのような「データフローを作成するワークベンチツール」ではなく、Excelのような「スプレッドシートですべてのデータを可視化できるインターフェース」を提供している。

専門ITスキルがなくても、データ全体を俯瞰することができるため、データに精通しているビジネス部門ユーザーが、データ・プレパレーションのプロセス全体を理解しやすいメリットがある。

その他に、「ピボットテーブル機能」「高度なフィルタ機能」「データヒストグラム自動作成機能」「重複データ色分け表示機能」など、さまざまなデータ可視化機能が搭載されている。

データ収集(連携)機能

データ・プレパレーションツールは、さまざまなデータソースにアクセスして、データを取得できる。

主なデータソース

社内基幹システム
データウェアハウス(RDBMS)
データレイク(NoSQLデータベース)
CRMシステム
SFAシステム
SAP
各種クラウドサービス
Hadoop
各種BIツール
各種ETLツール
Webアクセスログ
Excel
CSV
JSON
XML　など

データ変換(整形/結合)機能

データ収集機能により格納されたデータは非構造化データであり、データフォーマットが不統一であるため、そのままの状態で使えるデータはほとんど存在しない。

多くのデータ・プレパレーションツールは、データ分析で活用しやすくするためのデータの変換(整形/結合)機能を備えている。

主な機能①　JSONデータ可視化機能
そのままでは判読しづらいJSONデータに対して、自動的に構造化を行い、人間が理解しやすいように可視化できる。

主な機能②　複数データ結合機能
複数のデータセットを特定のキー情報で1つのデータセットに統合できる。どの項目をキー項目にするべきかについて提案してくれるツールも存在しており、「SQLにおけるJOIN処理」や「ExcelにおけるVLOOKUP機能」を理解していなくても、クリック1つでデータを結合できる。

主な機能③　データ補正(補完)サポート機能
データの中には「異常値」や「⽋損値」などが含まれているため、それらを適正に補正する必要がある。
ツールの中には、機械学習アルゴリズムを活用し、値にバラツキのある項目に関して、類似データをクラスタリングし、修正候補をレコメンドしてくれるものもある。

主な機能④　プレビュー機能
データ変換処理を実行する前に、プレビュー表示で変換後のデータを確認できる。処理方法と処理内容について、対話的に確認をしながら、データ・プレパレーションを進めることができる。

データエクスポート機能

データ変換(整形/結合)機能により作成されたアンサーセットについて、多彩なフォーマットでエクスポートを行える。

主なフォーマット

CSV
Excel
JSON
HDFS　など

データ分析機能

データ分析機能も含むツールも存在している。

「予測分析」「Googleマップ上へのデータプロット」「人口統計を融合」「空間分析」などの分析を行える。

高速データ処理機能

大量のデータを処理する必要があるため、データ・プレパレーションツールには、処理の高速性も求められる。

活用可能な主な高速化技術

分散コンピューティング(Hadoop)
インメモリ分散処理エンジン(Spark)
HDFS
機械学習　など

メインストリームとなるデータ・プレパレーション

「近い将来、多くのビジネスユーザーやアナリストは、分析のためのデータ準備として、セルフサービスツールを利用する」という予測もされている。

データ・プレパレーションは、「生産性向上」「企業イノベーション活性化」「新たな価値創出」を達成するためのキーテクノロジーとなりつつある。

「データ分析」とともに、「データ・プレパレーション」が今後のメインストリームになることが予想されている。

データ・プレパレーション(Data Preparation)とは

目次

データ・プレパレーションとは

概要

データ・プレパレーションが注目される理由

モダンBIツールの登場

増大するデータ量

複雑化するデータフォーマット

データ準備工程の負担拡大

セルフサービスBI(IT部門とビジネス部門のコネクトプラットフォーム)

コーディング不要のデータ分析

AI(機械学習)の予測モデル構築

関連用語説明

「ETL」と「データ・プレパレーション」

「データウェアハウス」と「データレイク」

データ・プレパレーションにおける主なプロセス

データ・プレパレーションツールの主な機能

データ可視化機能

データ収集(連携)機能

データ変換(整形/結合)機能

データエクスポート機能

データ分析機能

高速データ処理機能

メインストリームとなるデータ・プレパレーション

参考元サイト

データ・プレパレーション最新TOPICS

データ・プレパレーション最新CLOSEUPコラム

イベント情報

セミナー講演資料

用語集とタグ一覧