「Apache Spark(アパッチ スパーク)」は、ビッグデータを複数のマシンに分散して高速に処理できる、オープンソースの分散処理プラットフォームである。
Sparkは「RDD(Resillient Distributed Datasets)」という独自のキャッシュ機構を持ち、機械学習のように特定のデータに対して繰り返しアクセスするような処理を得意とする。また、リアルタイム処理を実現するためのフレームワークも備わっている。
このような特徴から、たびたび類似のテクノロジーであるHadoopと比較され、Sparkは「高速化されたMapReduce」とも、「ポスト Hadoop」とも言われる。
Sparkは、2014年にApacheのトップレベル・プロジェクトに昇格し、ビッグデータ分野のリーディングカンパニーCloudera社がサポートを開始している。
Sparkの特徴は、次のとおり。
■繰り返し処理に強い。
「RDD(Resillient Distributed Datasets)」によって、繰り返し利用するデータをキャッシュ上に保持することが可能であり、繰り返し処理で非常に高いパフォーマンスを発揮する。
■汎用的なプログラミングが可能。
ScalaのDSLを記述できるため、より汎用的なプログラミングが可能。
■Hadoopとの互換性がある。
たとえばHadoopでバッチ処理を行い、Sparkでオンライン分析を行うといったように、HadoopとSpark双方の得意な分野を組み合わせたシステムを作ることが可能。
■高い耐障害性がある。
Hadoop同様高い耐障害性があり、たとえRDDのデータが一部損なわれても再作成することが可能である。
Analytics News ACCESS RANKING