分析に必要とされるさまざまな非定型データを収集/整形し、迅速な分析開始のためのサポートを行う機能。

  • データ・プレパレーション(Data Preparation)とは

データ・プレパレーション(Data Preparation)とは

分析に必要とされるさまざまな非定型データを収集/整形し、迅速な分析開始のためのサポートを行う機能。

データ・プレパレーションとは
データ・プレパレーションとは「分析に必要とされるさまざまな非定型データを収集/整形し、迅速な分析開始のためのサポートを行う機能」を意味する。
今までのデータウェアハウスのようなデータ整形は、定型データを対象とした事前設計ベースで行われていた。
一方、データ・プレパレーションでは、事前設計を行うことなく、ビッグデータを含むあらゆる非定型データを収集し、分析可能な有用なデータとして出力する機能が求められている。

データ・プレパレーションの重要性
○データ分析は良質なデータに対してのみ有効
精度の高いデータ分析を行うためには、良質なベースデータが必要となる。
データ分析の事前準備として、データの収集/結合/変換/整形/補完などの作業により、良質な分析ベースデータを用意する必要がある。
データ分析において「データ・プレパレーション」が分析成功を左右するキーとなっている。

○有効な分析ベースデータ生成のために必要な主な作業

  • 「ブレンディング」:データを収集し結合
  • 「クレンジング」:データフォーマット統一、欠損値/外れ値を確認し修正

データ・プレパレーションの負担拡大
データ分析において「全体の80%がデータ準備に費やされ、分析にかける時間は20%」と言われている。データ分析前段階作業に時間を取られてしまい、本来行いたいデータ分析に時間をかけることができないという状況が発生している。
この負担は、ビジネス推進を阻害する要因として認識されはじめており、この工程での生産性向上が求められている。

○データ準備作業の肥大化
近年までなら、データ分析対象は定型データが多くを占めており、対応できる範囲内とされていた。しかし、最近では、データ準備作業に過度な負担と膨大な時間を必要とする状況になってきている。

○データ準備作業が増大する主な要因

  • 「データ量の増大」:リレーショナルデータベース、NoSQLデータベース、ビッグデータ(Hadoop)、IoT(M2M)、クラウド、SNS
  • 「非定型データの増大」:JSON、XML
  • 「データ生成速度が加速」:データストリーミング技術により日々生成されるデータ量が増大

データ・プレパレーションはメインストリームへ
○BIベンダーのデータ・プレパレーションに対する取り組み
BIベンダー(Qlik、Tableauなど)は、自社BIツールの新たな機能としてデータ・プレパレーションを実装しつつある。
ETL/EAIベンダー各社も、データ・プレパレーションの製品化を進めている。
独立したデータ・プレパレーションソリューションである「Paxata」なども登場し始めている。
データマネジメント関連企業がデータ・プレパレーション分野に注力していくことが予想されている。

データ・プレパレーションは、メインストリームのキーテクノロジーへ
データ・プレパレーションは、企業イノベーションを活性化させるキーテクノロジーとなりうる可能性がある。生産性向上や、新たな価値創出のために、データ・プレパレーション・プラットフォームが求められはじめている。
データ分析とともにデータ・プレパレーションが今後メインストリームになることが予想されている。

https://www.ashisuto.co.jp/product/category/data-preparation/paxata/
https://www.ashisuto.co.jp/corporate/column/technical-column/detail/1200446_2274.html
https://data.wingarc.com/what-is-data-preparation-4304
http://news.mynavi.jp/news/2016/08/29/245/
https://japan.techrepublic.com/article/35090704.htm

データ・プレパレーション最新TOPICS

最新情報はありません。

データ・プレパレーション最新CLOSEUPコラム

イベント情報

  • KSKサイド006

Analytics News ACESS RANKING

  • OSSNEWSに広告を掲載しませんか?

facebook

twitter