CLOSE UP コラム | Hadoopディストリビューション紹介

Hadoopディストリビューション紹介

CLOSE UP 事例

2017年06月05日
オープンソース活用研究所 所長 寺田雄一

ビッグデータのビジネス活用に欠かせない分散処理基盤「Apache Hadoop」の企業導入に役立つ主なディストリビューションを紹介する。

ディストリビューションとは

オープンソースの分散処理基盤「Apache Hadoop」は、ビッグデータをビジネスに活用する上で、欠かせないソフトウエアである。天文学的に膨大なデータの「高速で」「安価な」処理を可能にするからだ。

Hadoopは、ソースコードが公開されたオープンソースである。そのため、最新テクノロジーを無償で利用することができ、安価なサーバを用いれば低価格でビッグデータの高速な分散処理システムを構築できる。一方、オープンソースであるがゆえに、導入・運用におけるハードルは高い。オープンソースは、商用製品のようなベンダーからのサポートはなく、コミュニティーなどを通じて自分自身で使い方を学ぶのが一般的だ。技術力の高いIT系企業であれば、自力でHadoop環境を構築・運用することも不可能ではないが、多くの一般企業では、この点が障壁となる。

こういったオープンソースの導入、運用上の課題を解決するのが、Hadoopディストリビューションである。Hadoopディストリビューションを利用するメリットは、手間なく、最新のオープンソースを活用できる点にある。Hadoopディストリビューションを活用することで、自社開発に時間をとられることもなく構成済みのディストリビューションを手間なく導入でき、統合スタックを最新状態に保てるのだ。導入後も保守サポートだけでなく、バグやセキュリティに関するアップデートなどのサービスも利用できる。

現在、さまざまなベンダーが、企業向けの機能拡張を施すとともに、導入支援や技術サポートのサービスを提供している。

下記サイトからの要約。
http://techtarget.itmedia.co.jp/tt/news/1503/31/news04.html

代表的なHadoopディストリビューションは次のとおり。

Hadoopディストリビューション:Amazon Elastic MapReduce(Amazon EMR)

Amazonが提供するHadoopディストリビューション。AWS(Amazon Web Services)のクラウド上でマネージド型のHadoopフレームワークを利用可能にするサービス。オンプレミスの場合と比べて、迅速かつ容易に環境を構築・運用することができる。

下記サイトからの要約。
https://aws.amazon.com/jp/emr/

Hadoopディストリビューション:CDH(Cloudera's Distribution including Apache Hadoop)

独立系ベンダーであるClouderaが提供する、Hadoopディストリビューション。Apacheライセンスに基づくオープンソース製品であり、Hadoopと関連プロジェクトを含んでおり、バッチ処理、インタラクティブSQL、インタラクティブ検索、ロールベースのアクセスコントロール機能などを備える。

 

下記サイトからの要約。
http://www.cloudera.co.jp/products-services/cdh/cdh.html
https://jp.hortonworks.com/products/data-center/hdp/

Hadoopディストリビューション:IBM BigInsights for Apache Hadoop

日本IBMが提供するHadoopディストリビューション。企業向けに特化し、プラットフォーム上でのビッグデータ分析を可能にするサービス。無償の「Quick Start Edition」「IBM Open Platform with Apache Hadoop」、有償の「IBM BigInsights Analyst」「IBM BigInsights Data Scientist」「IBM BigInsights Enterprise Management」などが用意され、機能や用途に応じて幅広く対応できるようになっている。

下記サイトからの要約。
http://www-03.ibm.com/software/products/ja/ibm-biginsights-for-apache-hadoop

Hadoopディストリビューション:MapR

独立系ベンダーであるマップアール・テクノロジーズが提供する、Hadoopディストリビューション。Hadoopとの互換性を保ちながらHadoopより2倍~3倍のパフォーマンスを実現する。高可用性や障害回復、セキュリティ、データ保護などの企業向け機能を提供する。

下記サイトからの要約。
https://community.mapr.jp/mapr-product-catalog-web.html

Hadoopディストリビューション:Pivotal HD

Pivotalジャパンが提供するHadoopディストリビューション。Hadoopの中核機能のほか、同社独自の拡張機能やアナリティクス機能などが強化されている。Hadoop上でSQL処理を実現する「Pivotal HAWQ」との統合が可能。

下記サイトからの要約。
https://japan.emc.com/about/news/press/japan/2014/20140204-1.htm

Hadoopディストリビューション比較

自社に適したHadoopディストリビューションを知るために、Hadoopの主要ディストリビューションを4つの切り口から紹介する。

1.Hadoopデプロイモデル

Cloudera、IBM、MapRといったHadoopディストリビューションでは、クラウド、オンプレミス、プライベートクラウドなど複数のデプロイモデルが選択できる。とくにCloudera、MapR、Pivotal HDには、仮想環境で実行できるサンドボックス版も用意されている。

一方AWSのHadoopディストリビューションは、クラウド環境にしかデプロイされないが、Amazon EMRにはHadoopディストリビューションと多様なツールやテクノロジーがバンドルされているほか、MapRのHadoopディストリビューションを使用するオプションも用意されている。ユーザの環境規模の変更に対応するAWSの柔軟性は、コンピューティングやストレージのニーズが、日々変わり続ける企業に向いている。

2.Hadoop主要ディストリビューションのエンタープライズクラスの機能

Hadoopディストリビューションのなかでも独立系ベンダーであるCloudera(CDH)とMapRには、開発アプローチに特長がある。

Clouderaは、通常、自社開発のアドオンテクノロジーを使ってHadoopコアを補強する。同社は基本的にはオープンソース化を推進している。

対してMapRは、独自のファイルシステム「MapR-FS」の構築や、独自のNoSQLデータベース「MapR-DB」などの基盤テクノロジーの開発を進めている。こうした独自開発は、大規模クラスタ展開のニーズに適している。

一方、IBMは分析指向という戦略がある。これは、ビジネスインテリジェンスと高度な分析ツールの販売に傾注するという同社のアプローチに沿うものだ。

Pivotal HDは、一元的な構成管理・監視を実現するWebツールと仮想基盤上のHadoopの最適化を行う拡張機能で企業向けプラットフォームとしてのHadoopシステムを構築する。

Amazon EMRは、クラスタの監視/管理ツールや、アプリケーションとクラスタの相互運用を実現するツールも提供している。

3.Hadoopベンダーのセキュリティとデータ保護

オープンソースのセキュリティとデータ保護の観点につても、Hadoopディストリビューションによって対応が異なる。

Cloudera(CDH)、MapR、日本IBMは、いずれもデータ暗号化機能を提供している。Clouderaはデータが保存された状態での暗号化をサポートし、MapRは、クラスタ内外を転送中のデータを暗号化する。日本IBMは、データプライバシーを確保するとともに暗号化と機密データのマスキングを実行する製品を提供している。

またPivotal HD、Clouderaともにガバナンスに対応するエンタープライズレベルのデータ保護を謳っており、とくにClouderaは、データセキュリティとガバナンスを管理できるツールを提供しており、コンプライアンスと法規制のニーズにも対応する。

4.Hadoopの主要ディストリビューションのサブスクリプションサポート

Hadoopディストリビューションは、サポートモデルにもベンダーによる違いがある。

AmazonのAWSアカウントには、ベーシックサポートとビジネスサポートがある。「年中無休のカスタマーサービス」「コミュニティーフォーラムとドキュメント」「AWS Trusted Advisorアプリケーション」というベーシックサポートに加え、ビジネスサポートでは、重要度によってより迅速な対応も可能。

Cloudera(CDH)は、ライセンス保有者に年中無休のサポートオプション1時間分が付いたサポートサブスクリプションが用意されているほか、企業向けプレミアサポート用ライセンスもある。

IBMではライセンスコンポーネント(「付加価値モジュール」)を通して購入する企業にサポートを提供している。

MapRのでは、プレミアムサポートサービスに「Webおよびメールのサポート」「カスタムポータル」「緊急のバグ修正」「年中無休のサポート」「優先度の高い問題への年中無休の電話サポート」が追加されている。Pivotal HDは、サブスクリプションの他に買い取りも用意している。

下記サイトからの要約。
http://techtarget.itmedia.co.jp/tt/news/1606/13/news11.html


著者プロフィール

オープンソース活用研究所 所長 寺田雄一

1993年、株式会社野村総合研究所(NRI)入社。 インフラ系エンジニア、ITアーキテクトとして、証券会社基幹系システム、証券オンライントレードシステム、損保代理店システム、大手流通業基幹系システムなど、大規模システムのアーキテクチャ設計、基盤構築に従事。 2003年、NRI社内に、オープンソースの専門組織の設立を企画、10月に日本初となるオープンソース・ソリューションセンター設立。 2006年、社内ベンチャー制度にて、オープンソース・ワンストップサービス 「OpenStandia(オープンスタンディア)」事業を開始。オープンソースを活用した、企業情報ポータル、情報分析、シングルサインオン、統合ID管理、ドキュメント管理、統合業務システム(ERP)などの事業を次々と展開。 オープンソースビジネス推進協議会(OBCI),OpenAMコンソーシアムなどの業界団体も設立。同会の理事、会長や、NPO法人日本ADempiereの理事などを歴任。 2013年、NRIを退社し、株式会社オープンソース活用研究所を設立。

最新TOPICS

最新情報はありません。

関連タグ

機械学習(Machine Learning)

「機械学習(Machine Learning)」とは、人間が学習する基本的な仕組みをコンピュータで再現し実現する技術の総称を指す。機械学習では、学習ベースとなる大量のサンプルデータを入力値として用いて、繰り返し解析を行うことで、データから有用な「規則」「ルール」「知識表現」「判断基準」などを抽出し機械学習モデルを構築していく。

CAIWA Service Viii(カイワサービスヴィー)

  • AI

「CAIWA Service Viii(カイワサービスヴィー)」は対話型自動応答AIサービスで、主にチャットボットとしてエンドユーザーからの問い合わせに対応する機能を提供する。

Qlik(クリック)

  • BI

Qlik(クリック)とは、データ分析プラットフォーム。ビジネスユーザーが連想技術によりセルフサービスでデータを探索できる。

ディープラーニング(Deep Learning)

  • 用語集

「ディープラーニング(Deep Learning:深層学習)」とは、コンピュータによる機械学習の1種であり、人間の脳の階層構造をコンピュータで再現しようと言うアイデアに基づいた「ニューラルネットワーク」を改良し、画像や音声などの認識や、自動運転などの複雑な判断を可能にする。

データインテグレーション(Data Integration)

  • 用語集

「データインテグレーション」とは「データ統合」を意味し、「さまざまなデータソースからデータを統合して、意思決定に必要となる情報を得るためのシステムプロセスとビジネスプロセスの組み合わせ」を意味する。

バックナンバー

関連記事

無料資料プレゼント

2021/03/04 セキュリティDAYS Keyspider資料

講演資料を見るには、 プライバシーポリシーに同意して、送付先メールアドレスをご入力しご請求ください。

またご入力いただきました情報は、当該資料の作成・提供企業とも共有させていただき、当社及び各社のサービス、製品、セミナー、イベントなどのご案内に使用させていただきます。

本資料を見るには次の画面でアンケートに回答していただく必要があります。



セミナー講演資料公開中

上からも下からもプレッシャー中間管理職の「悩み」をデータの視点で解決 〜タイムリーなデータ活用、円滑な状況共有を導く分かりやすいデータストーリーとは〜

データ分析の課題をAWS Analyticsサービスで解決する方法

ビッグデータ処理のデータベースとして MySQL HeatWave が最適な理由 〜AWS Aurora/Redshift、GCP BigQuery との性能&コスト比較〜

  • 書籍

Analytics News ACCESS RANKING

facebook

twitter