「Apache Spark(アパッチ スパーク)」は、ビッグデータを複数のマシンに分散して高速に処理できる、オープンソースの分散処理プラットフォームである。

Apache Sparkとは

「Apache Spark(アパッチ スパーク)」は、ビッグデータを複数のマシンに分散して高速に処理できる、オープンソースの分散処理プラットフォームである。

Apache Spark(アパッチ スパーク)」は、ビッグデータを複数のマシンに分散して高速に処理できる、オープンソースの分散処理プラットフォームである。

Sparkは「RDD(Resillient Distributed Datasets)」という独自のキャッシュ機構を持ち、機械学習のように特定のデータに対して繰り返しアクセスするような処理を得意とする。また、リアルタイム処理を実現するためのフレームワークも備わっている。

このような特徴から、たびたび類似のテクノロジーであるHadoopと比較され、Sparkは「高速化されたMapReduce」とも、「ポスト Hadoop」とも言われる。

Sparkは、2014年にApacheのトップレベル・プロジェクトに昇格し、ビッグデータ分野のリーディングカンパニーCloudera社がサポートを開始している。

Sparkの特徴は、次のとおり。

■繰り返し処理に強い。
「RDD(Resillient Distributed Datasets)」によって、繰り返し利用するデータをキャッシュ上に保持することが可能であり、繰り返し処理で非常に高いパフォーマンスを発揮する。

■汎用的なプログラミングが可能。
ScalaのDSLを記述できるため、より汎用的なプログラミングが可能。

■Hadoopとの互換性がある。
たとえばHadoopでバッチ処理を行い、Sparkでオンライン分析を行うといったように、HadoopとSpark双方の得意な分野を組み合わせたシステムを作ることが可能。

■高い耐障害性がある。
Hadoop同様高い耐障害性があり、たとえRDDのデータが一部損なわれても再作成することが可能である。

Apache Spark最新TOPICS

最新情報はありません。

Apache Spark最新CLOSEUPコラム

イベント情報

  • KSKサイド002
  • OSSNEWSに広告を掲載しませんか?

facebook

twitter