データ・プレパレーションとは「分析に必要とされるさまざまな非定型データを収集/整形し、迅速な分析開始のためのサポートを行う機能」を意味する。データ・プレパレーションを直訳すると「データの準備」であり、さまざまなデータソースから大量のデータを取得し、次のデータ分析ステップのための準備を行うことを指す。

データ・プレパレーション(Data Preparation)とは

データ・プレパレーションとは「分析に必要とされるさまざまな非定型データを収集/整形し、迅速な分析開始のためのサポートを行う機能」を意味する。データ・プレパレーションを直訳すると「データの準備」であり、さまざまなデータソースから大量のデータを取得し、次のデータ分析ステップのための準備を行うことを指す。

分析に必要とされるさまざまな非定型データを収集/整形し、迅速な分析開始のためのサポートを行う機能。

目次

データ・プレパレーションとは
■概要
■データ・プレパレーションが注目される理由
→モダンBIツールの登場
→増大するデータ量
→複雑化するデータフォーマット
→データ準備工程の負担拡大
→セルフサービスBI(IT部門とビジネス部門のコネクトプラットフォーム)
→コーディング不要のデータ分析
→AI(機械学習)の予測モデル構築
■関連用語説明
→「ETL」と「データ・プレパレーション」
→「データウェアハウス」と「データレイク」
■データ・プレパレーションにおける主なプロセス
■データ・プレパレーションツールの主な機能
→データ可視化機能
→データ収集(連携)機能
→データ変換(整形/結合)機能
→データエクスポート機能
→データ分析機能
→高速データ処理機能
■メインストリームとなるデータ・プレパレーション

データ・プレパレーションとは

概要

データ・プレパレーションとは「分析に必要とされるさまざまな非定型データを収集/整形し、迅速な分析開始のためのサポートを行う機能」を意味する。

データ・プレパレーションを直訳すると「データの準備」であり、さまざまなデータソースから大量のデータを取得し、次のデータ分析ステップのための準備を行う。ビッグデータを含むあらゆるデータに対して、迅速な準備処理を行い、アナリストやビジネスユーザーに提供し、スピーディな分析サポートを行う。

ビジネス部門でのデータ活用を促進できるデータ・プレパレーションは、企業のイノベーションを生み出すキーテクノロジーとして大きな注目を集めている。

データ・プレパレーションが注目される理由

モダンBIツールの登場

モダンで使いやすいBI(Business Intelligence)ツールが多数登場してきていることで、ビジネス部門ユーザーがセルフサービスでデータ分析を行う「セルフサービスBI」を実施できる環境が整いつつある。

しかし、データ分析のためには良質なベースとなるデータが必要であり、BIツールの性能がいくら向上しても、分析の事前準備として、データの収集/結合/変換/整形/補完などの工程が必要であることは変わらない。

モダンBIツールの登場により、さらに、迅速なベースデータ準備作業が必要になっている。

増大するデータ量

データ分析の対象範囲は、「ビッグデータ処理技術の発達」「クラウド技術の浸透」「データストリーミング技術の向上」「IoTデバイスの増大」などの理由により、加速度的に増大している。

そのため、大量のデータを迅速に準備処理できる高速性が求められている。

主なデータ分析対象範囲

  • IT部門が管理している社内システムデータ(リレーショナルデータベース、NoSQLデータベース)
  • ビッグデータ(Hadoop)
  • クラウドデータ
  • IoT(M2M)データ
  • 各種市場データ
  • SNSデータ
  • ストリーミングデータ など
複雑化するデータフォーマット

非構造型データ(JSON/XMLなど)が増大し、データの複雑性が深まっている。

これまでのように、単純に定形型データを処理すればよいということはなく、さまざまな加工処理が必要となり、データ準備の工程についても、より一層複雑化している。

多様化するデータを活用するためには、従来型アプローチでのデータ準備では不十分であり、最新テクノロジーを駆使する新たなアプローチである「データ・プレパレーション」への期待は高まっている。

データ準備工程の負担拡大

Excelで処理できる程度のデータ量であった頃なら、Excelでデータ全体を俯瞰し、セルの色分け/フォント変更などの工夫により、かなりの作業時間を必要としていたが、地道な力技で、欠損値/外れ値の修正作業を行えていた。

しかし、データ量は増大し、データが複雑化すると、人力でのデータ整形作業は非常に困難であり、過度な負担と膨大な時間を必要とする状況になってきている。データ分析において「データ準備80%、データ分析20%」と言われており、データ分析前段階作業に時間を取られてしまい、本来行うべきデータ分析に時間をかけることができないという状況が発生している。

このような要因もあり、ビジネス推進を阻害する要因解消のため、データ準備の生産性向上は喫緊の課題として認識され始めている。データ・プレパレーションは、この領域をカバーする新しい取り組みとして注目を集めている。

セルフサービスBI(IT部門とビジネス部門のコネクトプラットフォーム)

社内外のあらゆるデータを迅速に準備し、活用するためには、IT部門とビジネス部門の積極的なコラボレーションが必要不可欠になりつつあり、データ・プレパレーションはその基盤として期待されている。

データ・プレパレーション(ツール)を導入すると、これまでIT部門が担当していた各種データプロセス(収集/抽出/加工など)をビジネス部門に移行し、ビジネス部門ユーザーがデータを準備し、データ活用を行う「セルフサービスBI」を実現できるようになる。

IT部門がデータの統制を効かせつつ、ビジネス部門ユーザーは、IT部門にデータ準備やデータ分析を依頼しなくても、使いやすいデータを得ることができるようになり、各種アナリティクスや機械学習などを利用し、データからさまざまな知見を得ることが可能になる。

コーディング不要のデータ分析

ビジネス部門ユーザーはデータの中身については熟知しているものの、IT部門ほどのITスキルやデータ処理の専門的な知識を持ち合わせていないため、必要なデータを得るために、逐一、IT部門へ依頼を行うという状況が繰り返されてきた。

データ・プレパレーションツールは、コーディング不要で、GUIベースで操作を行えるという大きなメリットがある。ビジネス部門のユーザーは、直感的なGUIインタフェースを利用し、データ処理フローを定義して自動化できる。また、分析用途に合わせて、簡単に処理内容の修正を行える。

データ・プレパレーションツールを導入すると、IT部門でのデータ処理の完了を待つ必要がなくなるため、データ分析を開始するまでの時間を大幅に短縮することが可能になる。

AI(機械学習)の予測モデル構築

これまでのデータ活用として、統計分析やダッシュボードなど、過去データを分析し、過去状況を把握することで、未来に何をすればよいのか知見を得るようなデータの使い方が主流とされてきた。

しかし、機械学習やディープラーニングに代表されるようなAI技術の発展により、未来を予測するデータの使い方ができるようになってきている。

機械学習を行うためには、良質な教師データを大量に読み込ませる必要があるが、このデータ準備には膨大な手間がかかるという問題があった。この領域についても、データ・プレパレーション技術が注目されている。

データ・プレパレーションツールにより、大量データから、良質な教師データを作成することにより、より正確に、より早く予測モデルを作り、分析を行うことが可能となる。

関連用語説明

「ETL」と「データ・プレパレーション」

「ETL」とは「Extract,Transform,Load」の略であり、企業内に存在する複数のシステムデータを対象として、「データ抽出→変換/加工→出力」を行う仕組みである。使用するためには高いITスキルが要求されるため、主に、IT部門エンジニアが複雑なロジックを用いてデータストアを構築する。価格は数千万円に達するケースもあり、導入までには、非常に長い時間がかかる。

データ・プレパレーション」は「ビジネス部門ユーザーによるアジャイルでライトなデータ活用」を想定しており、「大幅に機能を限定したシンプルなETL」ともいえる。「ETL」と「データ・プレパレーション」を連携させることで、さらに価値を高める分析を行うことも可能とされる。

「ETL」は高価でオーバースペックであるため導入できなかった中小企業でも、「データ・プレパレーション」なら導入を行いやすいというメリットがある。

「データウェアハウス」と「データレイク」

「データウェアハウス(Data Warehouse)」とは、構造化データストアのことで、分析目的を事前に定義した上で設計に沿ってデータを格納する。

一方、「データレイク(Data Lake)」とは、非構造化データストアのことで、事前設計のないままで、さまざまなフォーマット(構造化されていなかったり、RDBには入りきらない形式)のデータを格納する。

近年では、非構造化データが増大しており、データウェアハウスのみでの対応が難しくなっている。さまざまな種類のデータを、一旦、データレイク(構造化/⾮構造化共通の器)に集約し、そこから、「データウェアハウスを作成」したり、「データ・プレパレーションによる分析⽬的に応じたデータの取り出しと整形」を行う手法が主流になりつつある。

データ・プレパレーションにおける主なプロセス

データ・プレパレーションのプロセスとして、主に、次のようなものがある。

(1)データ収集

(2)データ全体を俯瞰

(3)データフォーマット統一

(4)クレンジング(欠損値や外れ値を確認し修正)

(5)ブレンディング(データ結合)

(6)データ検証

(7)データエクスポート

データ・プレパレーションツールの主な機能

主要なデータ・プレパレーションツールで利用できる主な機能について紹介する。

データ可視化機能

主要なデータ・プレパレーションツールは、データ可視化機能を持つ。既存のETLツールのような「データフローを作成するワークベンチツール」ではなく、Excelのような「スプレッドシートですべてのデータを可視化できるインターフェース」を提供している。

専門ITスキルがなくても、データ全体を俯瞰することができるため、データに精通しているビジネス部門ユーザーが、データ・プレパレーションのプロセス全体を理解しやすいメリットがある。

その他に、「ピボットテーブル機能」「高度なフィルタ機能」「データヒストグラム自動作成機能」「重複データ色分け表示機能」など、さまざまなデータ可視化機能が搭載されている。

データ収集(連携)機能

データ・プレパレーションツールは、さまざまなデータソースにアクセスして、データを取得できる。

主なデータソース

  • 社内基幹システム
  • データウェアハウス(RDBMS)
  • データレイク(NoSQLデータベース)
  • CRMシステム
  • SFAシステム
  • SAP
  • 各種クラウドサービス
  • Hadoop
  • 各種BIツール
  • 各種ETLツール
  • Webアクセスログ
  • Excel
  • CSV
  • JSON
  • XML など
データ変換(整形/結合)機能

データ収集機能により格納されたデータは非構造化データであり、データフォーマットが不統一であるため、そのままの状態で使えるデータはほとんど存在しない。

多くのデータ・プレパレーションツールは、データ分析で活用しやすくするためのデータの変換(整形/結合)機能を備えている。

主な機能① JSONデータ可視化機能
そのままでは判読しづらいJSONデータに対して、自動的に構造化を行い、人間が理解しやすいように可視化できる。

主な機能② 複数データ結合機能
複数のデータセットを特定のキー情報で1つのデータセットに統合できる。どの項目をキー項目にするべきかについて提案してくれるツールも存在しており、「SQLにおけるJOIN処理」や「ExcelにおけるVLOOKUP機能」を理解していなくても、クリック1つでデータを結合できる。

主な機能③ データ補正(補完)サポート機能
データの中には「異常値」や「⽋損値」などが含まれているため、それらを適正に補正する必要がある。
ツールの中には、機械学習アルゴリズムを活用し、値にバラツキのある項目に関して、類似データをクラスタリングし、修正候補をレコメンドしてくれるものもある。

主な機能④ プレビュー機能
データ変換処理を実行する前に、プレビュー表示で変換後のデータを確認できる。処理方法と処理内容について、対話的に確認をしながら、データ・プレパレーションを進めることができる。

データエクスポート機能

データ変換(整形/結合)機能により作成されたアンサーセットについて、多彩なフォーマットでエクスポートを行える。

主なフォーマット

  • CSV
  • Excel
  • JSON
  • HDFS など
データ分析機能

データ分析機能も含むツールも存在している。

「予測分析」「Googleマップ上へのデータプロット」「人口統計を融合」「空間分析」などの分析を行える。

高速データ処理機能

大量のデータを処理する必要があるため、データ・プレパレーションツールには、処理の高速性も求められる。

活用可能な主な高速化技術

  • 分散コンピューティング(Hadoop)
  • インメモリ分散処理エンジン(Spark)
  • HDFS
  • 機械学習 など

メインストリームとなるデータ・プレパレーション

「近い将来、多くのビジネスユーザーやアナリストは、分析のためのデータ準備として、セルフサービスツールを利用する」という予測もされている。

データ・プレパレーションは、「生産性向上」「企業イノベーション活性化」「新たな価値創出」を達成するためのキーテクノロジーとなりつつある。

「データ分析」とともに、「データ・プレパレーション」が今後のメインストリームになることが予想されている。

参考元サイト

データ・プレパレーション最新TOPICS

最新情報はありません。

データ・プレパレーション最新CLOSEUPコラム

イベント情報

セミナー講演資料

無料資料プレゼント

2021/03/04 セキュリティDAYS Keyspider資料

講演資料を見るには、 プライバシーポリシーに同意して、送付先メールアドレスをご入力しご請求ください。

またご入力いただきました情報は、当該資料の作成・提供企業とも共有させていただき、当社及び各社のサービス、製品、セミナー、イベントなどのご案内に使用させていただきます。

本資料を見るには次の画面でアンケートに回答していただく必要があります。



セミナー講演資料公開中

【Microsoft365ユーザー向け】クラウドメールサービスの保護に向いていない、ゲートウェイ方式メールセキュリティの課題 ~API連携・AI技術により、セキュリティ強化と運用効率化を実現~

SMS認証の代替手段、より高セキュアな“電話発信認証サービスTELEO”とは? ~スマホによる多要素認証の比較と、SMS認証のリスク~

正社員・非正規社員の離職率を下げるためには? ~主観的な定性評価から、定量的なジョブ型評価への転換の重要性~

  • 書籍

Analytics News ACCESS RANKING

  • OSSNEWSに広告を掲載しませんか?

facebook

twitter