CLOSE UP コラム | Hadoopディストリビューション紹介

Hadoopディストリビューション紹介

CLOSE UP 事例

2017年06月05日
オープンソース活用研究所 所長 寺田雄一

ビッグデータのビジネス活用に欠かせない分散処理基盤「Apache Hadoop」の企業導入に役立つ主なディストリビューションを紹介する。

ディストリビューションとは

オープンソースの分散処理基盤「Apache Hadoop」は、ビッグデータをビジネスに活用する上で、欠かせないソフトウエアである。天文学的に膨大なデータの「高速で」「安価な」処理を可能にするからだ。

Hadoopは、ソースコードが公開されたオープンソースである。そのため、最新テクノロジーを無償で利用することができ、安価なサーバを用いれば低価格でビッグデータの高速な分散処理システムを構築できる。一方、オープンソースであるがゆえに、導入・運用におけるハードルは高い。オープンソースは、商用製品のようなベンダーからのサポートはなく、コミュニティーなどを通じて自分自身で使い方を学ぶのが一般的だ。技術力の高いIT系企業であれば、自力でHadoop環境を構築・運用することも不可能ではないが、多くの一般企業では、この点が障壁となる。

こういったオープンソースの導入、運用上の課題を解決するのが、Hadoopディストリビューションである。Hadoopディストリビューションを利用するメリットは、手間なく、最新のオープンソースを活用できる点にある。Hadoopディストリビューションを活用することで、自社開発に時間をとられることもなく構成済みのディストリビューションを手間なく導入でき、統合スタックを最新状態に保てるのだ。導入後も保守サポートだけでなく、バグやセキュリティに関するアップデートなどのサービスも利用できる。

現在、さまざまなベンダーが、企業向けの機能拡張を施すとともに、導入支援や技術サポートのサービスを提供している。

下記サイトからの要約。
http://techtarget.itmedia.co.jp/tt/news/1503/31/news04.html

代表的なHadoopディストリビューションは次のとおり。

Hadoopディストリビューション:Amazon Elastic MapReduce(Amazon EMR)

Amazonが提供するHadoopディストリビューション。AWS(Amazon Web Services)のクラウド上でマネージド型のHadoopフレームワークを利用可能にするサービス。オンプレミスの場合と比べて、迅速かつ容易に環境を構築・運用することができる。

下記サイトからの要約。
https://aws.amazon.com/jp/emr/

Hadoopディストリビューション:CDH(Cloudera's Distribution including Apache Hadoop)

独立系ベンダーであるClouderaが提供する、Hadoopディストリビューション。Apacheライセンスに基づくオープンソース製品であり、Hadoopと関連プロジェクトを含んでおり、バッチ処理、インタラクティブSQL、インタラクティブ検索、ロールベースのアクセスコントロール機能などを備える。

 

下記サイトからの要約。
http://www.cloudera.co.jp/products-services/cdh/cdh.html
https://jp.hortonworks.com/products/data-center/hdp/

Hadoopディストリビューション:IBM BigInsights for Apache Hadoop

日本IBMが提供するHadoopディストリビューション。企業向けに特化し、プラットフォーム上でのビッグデータ分析を可能にするサービス。無償の「Quick Start Edition」「IBM Open Platform with Apache Hadoop」、有償の「IBM BigInsights Analyst」「IBM BigInsights Data Scientist」「IBM BigInsights Enterprise Management」などが用意され、機能や用途に応じて幅広く対応できるようになっている。

下記サイトからの要約。
http://www-03.ibm.com/software/products/ja/ibm-biginsights-for-apache-hadoop

Hadoopディストリビューション:MapR

独立系ベンダーであるマップアール・テクノロジーズが提供する、Hadoopディストリビューション。Hadoopとの互換性を保ちながらHadoopより2倍~3倍のパフォーマンスを実現する。高可用性や障害回復、セキュリティ、データ保護などの企業向け機能を提供する。

下記サイトからの要約。
https://community.mapr.jp/mapr-product-catalog-web.html

Hadoopディストリビューション:Pivotal HD

Pivotalジャパンが提供するHadoopディストリビューション。Hadoopの中核機能のほか、同社独自の拡張機能やアナリティクス機能などが強化されている。Hadoop上でSQL処理を実現する「Pivotal HAWQ」との統合が可能。

下記サイトからの要約。
https://japan.emc.com/about/news/press/japan/2014/20140204-1.htm

Hadoopディストリビューション比較

自社に適したHadoopディストリビューションを知るために、Hadoopの主要ディストリビューションを4つの切り口から紹介する。

1.Hadoopデプロイモデル

Cloudera、IBM、MapRといったHadoopディストリビューションでは、クラウド、オンプレミス、プライベートクラウドなど複数のデプロイモデルが選択できる。とくにCloudera、MapR、Pivotal HDには、仮想環境で実行できるサンドボックス版も用意されている。

一方AWSのHadoopディストリビューションは、クラウド環境にしかデプロイされないが、Amazon EMRにはHadoopディストリビューションと多様なツールやテクノロジーがバンドルされているほか、MapRのHadoopディストリビューションを使用するオプションも用意されている。ユーザの環境規模の変更に対応するAWSの柔軟性は、コンピューティングやストレージのニーズが、日々変わり続ける企業に向いている。

2.Hadoop主要ディストリビューションのエンタープライズクラスの機能

Hadoopディストリビューションのなかでも独立系ベンダーであるCloudera(CDH)とMapRには、開発アプローチに特長がある。

Clouderaは、通常、自社開発のアドオンテクノロジーを使ってHadoopコアを補強する。同社は基本的にはオープンソース化を推進している。

対してMapRは、独自のファイルシステム「MapR-FS」の構築や、独自のNoSQLデータベース「MapR-DB」などの基盤テクノロジーの開発を進めている。こうした独自開発は、大規模クラスタ展開のニーズに適している。

一方、IBMは分析指向という戦略がある。これは、ビジネスインテリジェンスと高度な分析ツールの販売に傾注するという同社のアプローチに沿うものだ。

Pivotal HDは、一元的な構成管理・監視を実現するWebツールと仮想基盤上のHadoopの最適化を行う拡張機能で企業向けプラットフォームとしてのHadoopシステムを構築する。

Amazon EMRは、クラスタの監視/管理ツールや、アプリケーションとクラスタの相互運用を実現するツールも提供している。

3.Hadoopベンダーのセキュリティとデータ保護

オープンソースのセキュリティとデータ保護の観点につても、Hadoopディストリビューションによって対応が異なる。

Cloudera(CDH)、MapR、日本IBMは、いずれもデータ暗号化機能を提供している。Clouderaはデータが保存された状態での暗号化をサポートし、MapRは、クラスタ内外を転送中のデータを暗号化する。日本IBMは、データプライバシーを確保するとともに暗号化と機密データのマスキングを実行する製品を提供している。

またPivotal HD、Clouderaともにガバナンスに対応するエンタープライズレベルのデータ保護を謳っており、とくにClouderaは、データセキュリティとガバナンスを管理できるツールを提供しており、コンプライアンスと法規制のニーズにも対応する。

4.Hadoopの主要ディストリビューションのサブスクリプションサポート

Hadoopディストリビューションは、サポートモデルにもベンダーによる違いがある。

AmazonのAWSアカウントには、ベーシックサポートとビジネスサポートがある。「年中無休のカスタマーサービス」「コミュニティーフォーラムとドキュメント」「AWS Trusted Advisorアプリケーション」というベーシックサポートに加え、ビジネスサポートでは、重要度によってより迅速な対応も可能。

Cloudera(CDH)は、ライセンス保有者に年中無休のサポートオプション1時間分が付いたサポートサブスクリプションが用意されているほか、企業向けプレミアサポート用ライセンスもある。

IBMではライセンスコンポーネント(「付加価値モジュール」)を通して購入する企業にサポートを提供している。

MapRのでは、プレミアムサポートサービスに「Webおよびメールのサポート」「カスタムポータル」「緊急のバグ修正」「年中無休のサポート」「優先度の高い問題への年中無休の電話サポート」が追加されている。Pivotal HDは、サブスクリプションの他に買い取りも用意している。

下記サイトからの要約。
http://techtarget.itmedia.co.jp/tt/news/1606/13/news11.html


著者プロフィール

オープンソース活用研究所 所長 寺田雄一

1993年、株式会社野村総合研究所(NRI)入社。 インフラ系エンジニア、ITアーキテクトとして、証券会社基幹系システム、証券オンライントレードシステム、損保代理店システム、大手流通業基幹系システムなど、大規模システムのアーキテクチャ設計、基盤構築に従事。 2003年、NRI社内に、オープンソースの専門組織の設立を企画、10月に日本初となるオープンソース・ソリューションセンター設立。 2006年、社内ベンチャー制度にて、オープンソース・ワンストップサービス 「OpenStandia(オープンスタンディア)」事業を開始。オープンソースを活用した、企業情報ポータル、情報分析、シングルサインオン、統合ID管理、ドキュメント管理、統合業務システム(ERP)などの事業を次々と展開。 オープンソースビジネス推進協議会(OBCI),OpenAMコンソーシアムなどの業界団体も設立。同会の理事、会長や、NPO法人日本ADempiereの理事などを歴任。 2013年、NRIを退社し、株式会社オープンソース活用研究所を設立。

最新TOPICS

最新情報はありません。

関連タグ

Cloud IoT Core(クラウドアイオーティコア)

  • IoT

Cloud IoT Core(クラウドアイオーティコア)は、Google Cloud PlatformのIoTフルマネージドサービス。端末管理機能とデータ取り込み機能を中心とした統合管理機能を提供する。

CAIWA Service Viii(カイワサービスヴィー)

  • AI

「CAIWA Service Viii(カイワサービスヴィー)」は対話型自動応答AIサービスで、主にチャットボットとしてエンドユーザーからの問い合わせに対応する機能を提供する。

FUJITSU Cloud Service K5 IoT Platform(フジツウクラウドサービスK5IoTプラットフォーム)

  • IoT

FUJITSU Cloud Service K5 IoT Platform(フジツウクラウドサービスK5IoTプラットフォーム)は、IoTデータ活用基盤サービス。

IoT(Internet of Things)

IoT(Internet of Things)とは、従来インターネットに接続されていなかったさまざまなモノ(センサーデバイス、デジタルデバイス、工業機械、駆動装置、建物、車など)が、ネットワークを通じてサーバやクラウドサービスに接続されることで、相互情報交換や遠隔制御できる仕組みを指す。

Zinrai(ジンライ)

  • AI

Zinraiとは、富士通が提供するAIプラットフォームサービスで、多様なAI機能やディープラーニング機能を利用できる。

バックナンバー

関連記事

無料資料プレゼント

2021/03/04 セキュリティDAYS Keyspider資料

講演資料を見るには、 プライバシーポリシーに同意して、送付先メールアドレスをご入力しご請求ください。

またご入力いただきました情報は、当該資料の作成・提供企業とも共有させていただき、当社及び各社のサービス、製品、セミナー、イベントなどのご案内に使用させていただきます。

本資料を見るには次の画面でアンケートに回答していただく必要があります。



セミナー講演資料公開中

データ活用におけるクレンジングの課題 〜「データ連携ツールを使っても非エンジニアには負担」の解決策〜

注目のDB技術「HTAP」とは? ~手軽に、かつ高速に、リアルタイム分析を実現する方法~

上からも下からもプレッシャー中間管理職の「悩み」をデータの視点で解決 〜タイムリーなデータ活用、円滑な状況共有を導く分かりやすいデータストーリーとは〜

  • 書籍

Analytics News ACCESS RANKING

facebook

twitter