データインテグレーションとは
■概要
■「データインテグレーション」が必要となる背景
データ散在
非アクセスデータの増大
保存可能データ量の増大
経営管理視点
業務改革視点
■関連用語解説
「データウェアハウス」とは
「データマート」とは
「データマイグレーション」と「データインテグレーション」の違い
■「データインテグレーション」の課題
①データ散在
②表記不統一
③情報の陳腐化
■「データインテグレーション」の主なプロセス
①データ発見/抽出
②データアセスメント(評価)
③データクレンジング
④データ統合/供給
■データ統合手法
意味的データ統合
データの仮想統合
「データインテグレーション」とは「データ統合」を意味し、「さまざまなデータソースからデータを統合して、意思決定に必要となる情報を得るためのシステムプロセスとビジネスプロセスの組み合わせ」を意味する。
近年、「蓄積されているが有効活用できていないデータ」を活用するために、データインテグレーションが注目を集めている。
データインテグレーションが必要となる主たる理由として次のようなものがある。
企業の社内システムにおいて、必要となるデータは各システム(基幹系/分析系/部門系など)に分散して保管されている現状がある。
さらに、それぞれのデータフォーマットは統一されておらず、異なるデータフォーマットで格納されているため、そのままでは活用できない状態であることが多い。
これらの資産データを有効活用するために、さまざまなデータソースを横断的に集約/統合するデータインテグレーションを行い、データウェアハウスに格納する必要がある。
従来、データの発生場所は大半がシステムであったが、近年では、データ発生場所が多様化しており、「SNS」「モバイル」「IoTデバイス」など、あらゆる場所でデータが発生し、組織および技術的にも分散している。
技術発展により、従来よりも安価に、大量のデータを蓄積できるようになっている。しかし、「大量データを管理する基盤整備」や「管理する技術者の育成」よりも先に、データだけが蓄積されている状態になっている。
その結果、企業がコストをかけてデータを収集し、さまざまなシステムやデータストアに保存しているが、実際に利活用/分析されないデータが増大している。
企業が経営管理を実現するためには、従来の「財務指標中心の経営管理」とは別に、「部門単位のKPI(Key Performance Indicator:重要業績評価指標)が企業全体の収益向上につながる仕組み」を構築する必要がある。
その際に、企業全体の経営管理支援システム基盤が「情報統合」がなされた企業情報となっていることが前提となる。
業務改革視点からも情報統合は有効に機能する。
「自社の業務状況」「パートナー業者情報」「顧客情報」を統合して可視化できれば、現場に即した意思決定環境の実現が可能となり、情報分析による新たなビジネス機会の獲得にもつながる。
生産/物流分野では「全社規模で需要を共有し在庫を把握する」などの情報の可視化が必須となる。需要予測/在庫数量/リードタイムなどの情報を統合すれば、ビジネスにおける改善点の把握が容易となる。
販売/営業分野では、顧客情報の一元化により、顧客満足度向上などの施策を立てやすくなる。多元的な分析により、迅速に顧客価値を把握し、最適な商品/サービスを開発する取り組みが求められる。
「データウェアハウス」とは、社内のさまざまなシステムに蓄積されているデータを集約して格納するための一種のデータベースである。定義としては、「意志決定のため、時系列かつ目的別に編成され、削除や更新しないデータの集合体」とされる。
データウェアハウスの目的は「過去データ蓄積」と「現在との比較」であるため、データの削除や更新は行われず、保持データ量は時間に比例して増大する。
一定間隔で、複数の基幹系システム(製造管理システム、販売管理システム、会計システムなど)から、トランザクションデータを抽出/再構成し、データウェアハウス内に長期保存し、BIなどの情報分析に利用する。
「データマート」とは「データウェアハウスの中から特定目的に合致するデータを取り出したデータ集合体」を意味する。主に、ビジネス部門が必要とするデータの参照を行うために用意される。
各ビジネス部門は、それぞれ必要とするデータや分析内容が異なるため、それぞれの部門単位で用意されることが多い。必要とする分析データをあらかじめ集計しておくことにより、分析レスポンスを向上できる。また、データウェアハウス本体に対する負荷を軽減できるメリットもある。
「データマイグレーション(データ移行)」と「データインテグレーション(データ統合)」の意味合いは異なる。
「データマイグレーション(データ移行)」は、一般的に、「ある環境のデータを別の環境にコピーし、元環境からデータを消去する」ことを意味し、開発プロジェクトにおけるタスクの1つとなる。大規模プロジェクトなどでは数年かかる場合もある。
「データインテグレーション(データ統合)」は、「ITアーキテクチャ内の定常的プロセス」であり「各種アプリケーションやデータ格納域の間のデータの流れ」を指す。「運用系からデータウェアハウスへデータを供給するプロセス」などが該当する。
「基幹系システム」と「情報分析/活用形システム」を横断的に活用するためのデータインテグレーション(データ統合)は、多くの企業にとって長年の課題とされてきた。
データインテグレーションには、「コード統一」や「メタデータ管理」など、データ品質や信頼性を維持するための複雑/高負荷な作業が必要になることが主な理由だった。
データインテグレーションの課題として、次のようなものがある。
情報システムの分散化により、基幹システムに加え、各ビジネス部門単位でサブシステムが存在し、それぞれで顧客データを保管しているなど、データが散在している状況がある。
また、それぞれ独自に管理されているため、同一顧客データが重複しているケースも多く、そのままでは分析に利用できないという問題もある。
データ表記法が統一されていないため、多くの「表記ゆれ」データが存在している。同一顧客企業であっても、「正式名称」「略称名」などが混在し、誤記表記も内在している。
「株式会社」を表す表記についても、「株式会社」「(株)」「(株)」「㈱」など多様な表記で登録されてしまっている場合も多い。
また、「カタカナ表記/アルファベット表記」「大文字表記/小文字表記」など、些細な違いで別顧客として集計されてしまい、実態と乖離してしまう課題がある。
時間経過により、格納されている情報が古くなっていくという問題もある。
顧客企業名の場合は、吸収合併などにより社名変更されていることもあり、顧客部門名に至っては、より頻繁に更新される。企業情報は、日々、変化し続けるものであるため、過去の企業情報も蓄積しておき、どの企業が同一企業なのかについて見分ける必要がある。
住所の市町村名の場合、市町村合併により名称が変更されている場合があり、付随して郵便番号も変更になっている可能性がある。
これらの例以外にも、多くの情報が陳腐化していくことを考慮する必要がある。
データインテグレーションの主なプロセスとして、次のような手順がある。
まず、「企業内のどのシステムに、どのようなデータが、どのような形式で保存されているのか?」について把握する必要がある。
また、ストレージとしての情報だけではなく「それぞれのデータがどのように移動しているのか?」についても調査が必要であり、全体を漏らさず把握できる包括的なデータマップを作成しなければならない。
その後、各種データストレージから、データコネクタによりデータの抽出を行う。
抽出した生データに対して、データ品質を把握し評価するため、対象データソースの内容/構造/品質などについての調査を行う。
「複数テーブルの相関関係」「欠損値データ有無」「ブランクデータ有無」「表記ゆれ状態」などを把握し、「データ状態把握」「データ品質統計的検証」「除外データ特定」「品質目標設定」などを行い、データ分析レポートを作成する。
データ分析レポートからルールを定義し、データクレンジングを行う。
「マスタデータ統合」「データ整合性修正」「不正データ補正」「表記ゆれ補正」「不要データ削除」「重複データ削除」などを行い、データ品質を高め、精度の高い分析を行えるようにデータ変換を行う。
「データ分析作業の約80%がデータ準備」と言われるように、高品質なデータ分析を行うための非常に重要なプロセスとなる。
クレンジングが完了したデータについて、ETLツールを使用して、対象データソースから必要となるデータのみをデータウェアハウスに集約する。
「ETL」とは、「Extract(抽出)」+「Transform(変換/加工)」+「Loading(格納)」の3つの頭文字を取ったワードであり、「分散して存在する大量データを1つにまとめるための一連のデータ処理」を意味し、データウェアハウス構築時に行われる処理において主要な役割を担う。
「意味的データ統合(セマンティックデータ統合)」とは、異なるフォーマットで管理されているデータ群を意味的に接合することにより、データインテグレーション(データ統合)を行う方法である。
「情報の意味」や「関連性」を用いて接合していく手法であるため、従来のコンピュータプログラムだけでは実現は難しいとされているが、メタデータや辞書などの標準化/登録/配布サービスが整備されつつある。
データウェアハウスにデータを集約しないデータインテグレーションとして「仮想統合(レプリケーション統合)」がある。複数あるデータソースを接続して「仮想的データウェアハウス」を作成する。
「仮想統合」の場合は、見かけ上統合されているデータ集合を作成する。データウェアハウスを作成する必要がないため、低コスト/短期間で構築できるメリットがある。
参考元サイト
Analytics News ACCESS RANKING