Apache Sparkとは

「Apache Spark(アパッチスパーク)」は、ビッグデータを複数のマシンに分散して高速に処理できる、オープンソースの分散処理プラットフォームである。

「Apache Spark(アパッチスパーク)」は、ビッグデータを複数のマシンに分散して高速に処理できる、オープンソースの分散処理プラットフォームである。

Sparkは「RDD（Resillient Distributed Datasets）」という独自のキャッシュ機構を持ち、機械学習のように特定のデータに対して繰り返しアクセスするような処理を得意とする。また、リアルタイム処理を実現するためのフレームワークも備わっている。

このような特徴から、たびたび類似のテクノロジーであるHadoopと比較され、Sparkは「高速化されたMapReduce」とも、「ポスト Hadoop」とも言われる。

Sparkは、2014年にApacheのトップレベル・プロジェクトに昇格し、ビッグデータ分野のリーディングカンパニーCloudera社がサポートを開始している。

Sparkの特徴は、次のとおり。

■繰り返し処理に強い。
「RDD（Resillient Distributed Datasets）」によって、繰り返し利用するデータをキャッシュ上に保持することが可能であり、繰り返し処理で非常に高いパフォーマンスを発揮する。

■汎用的なプログラミングが可能。
ScalaのDSLを記述できるため、より汎用的なプログラミングが可能。

■Hadoopとの互換性がある。
たとえばHadoopでバッチ処理を行い、Sparkでオンライン分析を行うといったように、HadoopとSpark双方の得意な分野を組み合わせたシステムを作ることが可能。

■高い耐障害性がある。
Hadoop同様高い耐障害性があり、たとえRDDのデータが一部損なわれても再作成することが可能である。

最新情報はありません。

無料資料プレゼント

2021/03/04 セキュリティDAYS Keyspider資料

講演資料を見るには、プライバシーポリシーに同意して、送付先メールアドレスをご入力しご請求ください。

またご入力いただきました情報は、当該資料の作成・提供企業とも共有させていただき、当社及び各社のサービス、製品、セミナー、イベントなどのご案内に使用させていただきます。

本資料を見るには次の画面でアンケートに回答していただく必要があります。

セミナー講演資料公開中

【Microsoft365ユーザー向け】クラウドメールサービスの保護に向いていない、ゲートウェイ方式メールセキュリティの課題～API連携・AI技術により、セキュリティ強化と運用効率化を実現～

正社員・非正規社員の離職率を下げるためには？～主観的な定性評価から、定量的なジョブ型評価への転換の重要性～

文書を作る過程における情報（Slack/Teamsでのコメントなど）をどう管理、共有するべきか？～新しい文書情報管理の考え方～

Analytics News ACCESS RANKING

facebook

twitter