「Apache Hadoop(アパッチ ハドゥープ)」とは、 ビッグデータを複数のマシンに分散して処理できる、オープンソースのプラットフォームである。

Apache Hadoopとは

「Apache Hadoop(アパッチ ハドゥープ)」とは、 ビッグデータを複数のマシンに分散して処理できる、オープンソースのプラットフォームである。

■関連する比較ページ

Apache Hadoop(アパッチ ハドゥープ)」とは、 ビッグデータを複数のマシンに分散して処理できる、オープンソースのプラットフォームである。

ビッグデータを蓄積、分析する際に発生するプロセス同士の通信、監視、障害時の対応といった煩雑な作業を、Mapper、Reducerと呼ばれる2つのスクリプトを作成するだけでまかない、容易に大規模データの分散処理を実現する。

Hadoopは、 2004年にGoogleが論文で発表した独自の分散処理フレームワーク「MapReduce」をもとに開発が始まり、現在は、HadoopはApacheのトップレベルプロジェクトのひとつとして、世界規模の開発貢献者コミュニティによって開発が続けられている。

Hadoopは、アプリケーションが数千ノードからペタバイト級のデータを処理することを可能にするが、オーバーヘッドが大きく、パフォーマンスが求められるリアルタイム処理には向かない傾向がある。

パフォーマンスが求められる分散処理プラットフォームとしては「Spark」がある。

そのほかのHadoopの特徴は、次のとおり。

■データ量に応じたスケールアウトが可能。

Hadoopは、シンプルながら、さまざまな処理に柔軟に対応できるプログラミングモデル「MapReduce」と分散ストレージ「HDFS」で構成されており、スケールアウトを前提として設計されているため、サーバ台数の増加に応じて性能を上げていくことが可能となる。

■スキーマ定義が不要。

「HDFS」にデータを格納する際にはスキーマ定義が不要であるため、事前の設計の手間を低減できる。Hadoopでは処理するタイミングで意味づけを行うため、とりあえずデータを格納し、処理の方針が決まった段階でデータの扱い方を定義することができる。

■高い耐障害性がある。
Hadoopには専用ハードウェアや特別なスペックが必要なく、市販のサーバを利用できるため、基盤構築の費用を抑えることができる。

また故障発生を前提としたアーキテクチャであり、耐障害性が高い。複数のマシンを1つのストレージとして扱うことができるため、一部のマシンが故障してもデータが失われないように設計されている。また一部のノードが故障した場合でも、すぐに別のノードへ処理を振り分けることが可能である。

■あらゆる言語でスクリプトを作成することができる。
HadoopのフレームワークはJavaで書かれているが、標準入出力を持つ言語であれば、あらゆる言語でスクリプトを作成することができる。

Apache Hadoop最新TOPICS

Hadoopディストリビューション紹介(2017年06月05日 10:00)

ビッグデータのビジネス活用に欠かせない分散処理基盤「Apache Hadoop」の企業導入に役立つ主なディストリビューションを紹介している。

イベント情報

セミナー講演資料

無料資料プレゼント

2021/03/04 セキュリティDAYS Keyspider資料

講演資料を見るには、 プライバシーポリシーに同意して、送付先メールアドレスをご入力しご請求ください。

またご入力いただきました情報は、当該資料の作成・提供企業とも共有させていただき、当社及び各社のサービス、製品、セミナー、イベントなどのご案内に使用させていただきます。

本資料を見るには次の画面でアンケートに回答していただく必要があります。



セミナー講演資料公開中

【Microsoft365ユーザー向け】クラウドメールサービスの保護に向いていない、ゲートウェイ方式メールセキュリティの課題 ~API連携・AI技術により、セキュリティ強化と運用効率化を実現~

文書を作る過程における情報(Slack/Teamsでのコメントなど)をどう管理、共有するべきか? ~新しい文書情報管理の考え方~

正社員・非正規社員の離職率を下げるためには? ~主観的な定性評価から、定量的なジョブ型評価への転換の重要性~

  • 書籍

Analytics News ACCESS RANKING

  • OSSNEWSに広告を掲載しませんか?

facebook

twitter