「Apache Spark(アパッチ スパーク)」は、ビッグデータを複数のマシンに分散して高速に処理できる、オープンソースの分散処理プラットフォームである。

Apache Sparkとは

「Apache Spark(アパッチ スパーク)」は、ビッグデータを複数のマシンに分散して高速に処理できる、オープンソースの分散処理プラットフォームである。

Apache Spark(アパッチ スパーク)」は、ビッグデータを複数のマシンに分散して高速に処理できる、オープンソースの分散処理プラットフォームである。

Sparkは「RDD(Resillient Distributed Datasets)」という独自のキャッシュ機構を持ち、機械学習のように特定のデータに対して繰り返しアクセスするような処理を得意とする。また、リアルタイム処理を実現するためのフレームワークも備わっている。

このような特徴から、たびたび類似のテクノロジーであるHadoopと比較され、Sparkは「高速化されたMapReduce」とも、「ポスト Hadoop」とも言われる。

Sparkは、2014年にApacheのトップレベル・プロジェクトに昇格し、ビッグデータ分野のリーディングカンパニーCloudera社がサポートを開始している。

Sparkの特徴は、次のとおり。

■繰り返し処理に強い。
「RDD(Resillient Distributed Datasets)」によって、繰り返し利用するデータをキャッシュ上に保持することが可能であり、繰り返し処理で非常に高いパフォーマンスを発揮する。

■汎用的なプログラミングが可能。
ScalaのDSLを記述できるため、より汎用的なプログラミングが可能。

■Hadoopとの互換性がある。
たとえばHadoopでバッチ処理を行い、Sparkでオンライン分析を行うといったように、HadoopとSpark双方の得意な分野を組み合わせたシステムを作ることが可能。

■高い耐障害性がある。
Hadoop同様高い耐障害性があり、たとえRDDのデータが一部損なわれても再作成することが可能である。

Apache Spark最新TOPICS

最新情報はありません。

Apache Spark最新CLOSEUPコラム

イベント情報

セミナー講演資料

無料資料プレゼント

2021/03/04 セキュリティDAYS Keyspider資料

講演資料を見るには、 プライバシーポリシーに同意して、送付先メールアドレスをご入力しご請求ください。

またご入力いただきました情報は、当該資料の作成・提供企業とも共有させていただき、当社及び各社のサービス、製品、セミナー、イベントなどのご案内に使用させていただきます。

本資料を見るには次の画面でアンケートに回答していただく必要があります。



セミナー講演資料公開中

正社員・非正規社員の離職率を下げるためには? ~主観的な定性評価から、定量的なジョブ型評価への転換の重要性~

世界最高峰のリアルハッカー集団を活用した脆弱性対策 ~米国政府も採用、脆弱性診断・ペネトレーションテストを大胆に変革する方法~

【Microsoft365ユーザー向け】クラウドメールサービスの保護に向いていない、ゲートウェイ方式メールセキュリティの課題 ~API連携・AI技術により、セキュリティ強化と運用効率化を実現~

  • 書籍

Analytics News ACCESS RANKING

  • OSSNEWSに広告を掲載しませんか?

facebook

twitter