CLOSE UP コラム | Hadoopディストリビューション紹介

Hadoopディストリビューション紹介

CLOSE UP 事例

2017年06月05日
オープンソース活用研究所 所長 寺田雄一

ビッグデータのビジネス活用に欠かせない分散処理基盤「Apache Hadoop」の企業導入に役立つ主なディストリビューションを紹介する。

ディストリビューションとは

オープンソースの分散処理基盤「Apache Hadoop」は、ビッグデータをビジネスに活用する上で、欠かせないソフトウエアである。天文学的に膨大なデータの「高速で」「安価な」処理を可能にするからだ。

Hadoopは、ソースコードが公開されたオープンソースである。そのため、最新テクノロジーを無償で利用することができ、安価なサーバを用いれば低価格でビッグデータの高速な分散処理システムを構築できる。一方、オープンソースであるがゆえに、導入・運用におけるハードルは高い。オープンソースは、商用製品のようなベンダーからのサポートはなく、コミュニティーなどを通じて自分自身で使い方を学ぶのが一般的だ。技術力の高いIT系企業であれば、自力でHadoop環境を構築・運用することも不可能ではないが、多くの一般企業では、この点が障壁となる。

こういったオープンソースの導入、運用上の課題を解決するのが、Hadoopディストリビューションである。Hadoopディストリビューションを利用するメリットは、手間なく、最新のオープンソースを活用できる点にある。Hadoopディストリビューションを活用することで、自社開発に時間をとられることもなく構成済みのディストリビューションを手間なく導入でき、統合スタックを最新状態に保てるのだ。導入後も保守サポートだけでなく、バグやセキュリティに関するアップデートなどのサービスも利用できる。

現在、さまざまなベンダーが、企業向けの機能拡張を施すとともに、導入支援や技術サポートのサービスを提供している。

下記サイトからの要約。
http://techtarget.itmedia.co.jp/tt/news/1503/31/news04.html

代表的なHadoopディストリビューションは次のとおり。

Hadoopディストリビューション:Amazon Elastic MapReduce(Amazon EMR)

Amazonが提供するHadoopディストリビューション。AWS(Amazon Web Services)のクラウド上でマネージド型のHadoopフレームワークを利用可能にするサービス。オンプレミスの場合と比べて、迅速かつ容易に環境を構築・運用することができる。

下記サイトからの要約。
https://aws.amazon.com/jp/emr/

Hadoopディストリビューション:CDH(Cloudera's Distribution including Apache Hadoop)

独立系ベンダーであるClouderaが提供する、Hadoopディストリビューション。Apacheライセンスに基づくオープンソース製品であり、Hadoopと関連プロジェクトを含んでおり、バッチ処理、インタラクティブSQL、インタラクティブ検索、ロールベースのアクセスコントロール機能などを備える。

 

下記サイトからの要約。
http://www.cloudera.co.jp/products-services/cdh/cdh.html
https://jp.hortonworks.com/products/data-center/hdp/

Hadoopディストリビューション:IBM BigInsights for Apache Hadoop

日本IBMが提供するHadoopディストリビューション。企業向けに特化し、プラットフォーム上でのビッグデータ分析を可能にするサービス。無償の「Quick Start Edition」「IBM Open Platform with Apache Hadoop」、有償の「IBM BigInsights Analyst」「IBM BigInsights Data Scientist」「IBM BigInsights Enterprise Management」などが用意され、機能や用途に応じて幅広く対応できるようになっている。

下記サイトからの要約。
http://www-03.ibm.com/software/products/ja/ibm-biginsights-for-apache-hadoop

Hadoopディストリビューション:MapR

独立系ベンダーであるマップアール・テクノロジーズが提供する、Hadoopディストリビューション。Hadoopとの互換性を保ちながらHadoopより2倍~3倍のパフォーマンスを実現する。高可用性や障害回復、セキュリティ、データ保護などの企業向け機能を提供する。

下記サイトからの要約。
https://community.mapr.jp/mapr-product-catalog-web.html

Hadoopディストリビューション:Pivotal HD

Pivotalジャパンが提供するHadoopディストリビューション。Hadoopの中核機能のほか、同社独自の拡張機能やアナリティクス機能などが強化されている。Hadoop上でSQL処理を実現する「Pivotal HAWQ」との統合が可能。

下記サイトからの要約。
https://japan.emc.com/about/news/press/japan/2014/20140204-1.htm

Hadoopディストリビューション比較

自社に適したHadoopディストリビューションを知るために、Hadoopの主要ディストリビューションを4つの切り口から紹介する。

1.Hadoopデプロイモデル

Cloudera、IBM、MapRといったHadoopディストリビューションでは、クラウド、オンプレミス、プライベートクラウドなど複数のデプロイモデルが選択できる。とくにCloudera、MapR、Pivotal HDには、仮想環境で実行できるサンドボックス版も用意されている。

一方AWSのHadoopディストリビューションは、クラウド環境にしかデプロイされないが、Amazon EMRにはHadoopディストリビューションと多様なツールやテクノロジーがバンドルされているほか、MapRのHadoopディストリビューションを使用するオプションも用意されている。ユーザの環境規模の変更に対応するAWSの柔軟性は、コンピューティングやストレージのニーズが、日々変わり続ける企業に向いている。

2.Hadoop主要ディストリビューションのエンタープライズクラスの機能

Hadoopディストリビューションのなかでも独立系ベンダーであるCloudera(CDH)とMapRには、開発アプローチに特長がある。

Clouderaは、通常、自社開発のアドオンテクノロジーを使ってHadoopコアを補強する。同社は基本的にはオープンソース化を推進している。

対してMapRは、独自のファイルシステム「MapR-FS」の構築や、独自のNoSQLデータベース「MapR-DB」などの基盤テクノロジーの開発を進めている。こうした独自開発は、大規模クラスタ展開のニーズに適している。

一方、IBMは分析指向という戦略がある。これは、ビジネスインテリジェンスと高度な分析ツールの販売に傾注するという同社のアプローチに沿うものだ。

Pivotal HDは、一元的な構成管理・監視を実現するWebツールと仮想基盤上のHadoopの最適化を行う拡張機能で企業向けプラットフォームとしてのHadoopシステムを構築する。

Amazon EMRは、クラスタの監視/管理ツールや、アプリケーションとクラスタの相互運用を実現するツールも提供している。

3.Hadoopベンダーのセキュリティとデータ保護

オープンソースのセキュリティとデータ保護の観点につても、Hadoopディストリビューションによって対応が異なる。

Cloudera(CDH)、MapR、日本IBMは、いずれもデータ暗号化機能を提供している。Clouderaはデータが保存された状態での暗号化をサポートし、MapRは、クラスタ内外を転送中のデータを暗号化する。日本IBMは、データプライバシーを確保するとともに暗号化と機密データのマスキングを実行する製品を提供している。

またPivotal HD、Clouderaともにガバナンスに対応するエンタープライズレベルのデータ保護を謳っており、とくにClouderaは、データセキュリティとガバナンスを管理できるツールを提供しており、コンプライアンスと法規制のニーズにも対応する。

4.Hadoopの主要ディストリビューションのサブスクリプションサポート

Hadoopディストリビューションは、サポートモデルにもベンダーによる違いがある。

AmazonのAWSアカウントには、ベーシックサポートとビジネスサポートがある。「年中無休のカスタマーサービス」「コミュニティーフォーラムとドキュメント」「AWS Trusted Advisorアプリケーション」というベーシックサポートに加え、ビジネスサポートでは、重要度によってより迅速な対応も可能。

Cloudera(CDH)は、ライセンス保有者に年中無休のサポートオプション1時間分が付いたサポートサブスクリプションが用意されているほか、企業向けプレミアサポート用ライセンスもある。

IBMではライセンスコンポーネント(「付加価値モジュール」)を通して購入する企業にサポートを提供している。

MapRのでは、プレミアムサポートサービスに「Webおよびメールのサポート」「カスタムポータル」「緊急のバグ修正」「年中無休のサポート」「優先度の高い問題への年中無休の電話サポート」が追加されている。Pivotal HDは、サブスクリプションの他に買い取りも用意している。

下記サイトからの要約。
http://techtarget.itmedia.co.jp/tt/news/1606/13/news11.html


著者プロフィール

オープンソース活用研究所 所長 寺田雄一

1993年、株式会社野村総合研究所(NRI)入社。 インフラ系エンジニア、ITアーキテクトとして、証券会社基幹系システム、証券オンライントレードシステム、損保代理店システム、大手流通業基幹系システムなど、大規模システムのアーキテクチャ設計、基盤構築に従事。 2003年、NRI社内に、オープンソースの専門組織の設立を企画、10月に日本初となるオープンソース・ソリューションセンター設立。 2006年、社内ベンチャー制度にて、オープンソース・ワンストップサービス 「OpenStandia(オープンスタンディア)」事業を開始。オープンソースを活用した、企業情報ポータル、情報分析、シングルサインオン、統合ID管理、ドキュメント管理、統合業務システム(ERP)などの事業を次々と展開。 オープンソースビジネス推進協議会(OBCI),OpenAMコンソーシアムなどの業界団体も設立。同会の理事、会長や、NPO法人日本ADempiereの理事などを歴任。 2013年、NRIを退社し、株式会社オープンソース活用研究所を設立。

最新TOPICS

Amazon RDS や AURORA、Azure SQL Database など、主要 DBaaS ベンダー 13 社の評価レポートを公開(2017年10月31日 12:05)

サービスとしてのデータベース (DBaaS) は、企業情報システムにとってますます重要性を増しています。米 Forrester が調査した、Amazon RDS や AURORA、Azure SQL Database など、最有力 DBaaS ベンダー 13 社の評価レポートを公開しました。ぜひご参考ください。

関連タグ

RapidMiner(ラピッドマイナー)

  • BA

RapidMiner(ラピッドマイナー)とは、「データマイニング」「機械学習」「予測分析」などを行える統合的データ分析プラットフォームであり、使いやすいGUIでデータ分析を行える点を特徴としている。

Tableau(タブロー)

  • BI

Tableau(タブロー)とは、使い勝手に優れたセルフBI型ビジュアル分析ツール。

LPWA(Low Power、Wide Area)

  • 用語集

「LPWA」とは、「Low Power=省電力」+「Wide Area=広域エリア」を意味しており、少ない消費電力で、km単位の距離で広範囲に通信できる無線通信技術の総称である。

Qlik(クリック)

  • BI

Qlik(クリック)とは、データ分析プラットフォーム。ビジネスユーザーが連想技術によりセルフサービスでデータを探索できる。

サイバーフィジカルシステム(Cyber-Physical System)

  • 用語集

これまで「経験と勘」に頼っていた事象を効率化し、より高度な社会を実現するためのサービスおよびシステム。

バックナンバー

関連記事

  • KSKサイド004

facebook

twitter