「リアルタイムデータ処理ツール(Apacheプロダクト)」紹介として、「Apache Storm」「Apache Kafka」「Apache Spark」「Apache Flink」「Apache Samza」について紹介。

「リアルタイムデータ処理ツール(Apacheプロダクト)」紹介

「リアルタイムデータ処理ツール(Apacheプロダクト)」紹介として、「Apache Storm」「Apache Kafka」「Apache Spark」「Apache Flink」「Apache Samza」について紹介。

リアルタイムデータ処理機能を提供する代表的なApacheプロダクトを紹介。

リアルタイムビッグデータ処理フレームワーク「Apache Storm」

■概要

「Apache Storm」は、オープンソースのリアルタイムビッグデータ処理フレームワーク。

「耐障害性」と「優れた高速分散処理」を特徴としている。

→apache.org →Apache Storm

■高速処理能力

「Apache Storm」は高速処理性能により、1ノード1秒あたりに100万以上のタプル(複数の構成要素からなる組)を発生させたベンチマーク結果が出ている。

リアルタイムデータパイプライン「Apache Kafka」

■概要

「Apache Kafka」は分散ストリーミングプラットフォーム。

主な用途として、リアルタイムのデータパイプラインとストリーミングアプリの構築に使用される。

「水平方向拡張」「耐故障性」「高速処理」などの特徴があり、数千の企業で本番稼働している。

→apache.org →Apache Kafka

■分散ファイルシステム機能

「Apache Kafka」はストリーム機能の他に、分散ファイルシステム機能も提供する。

Kafkaに書き込まれたデータはディスクに書き込まれ、耐障害性のために複製される。

Kafkaは「コミットログストレージ用途」「レプリケーション用途」「伝播専用の一種の特殊用途分散ファイルシステム用途」などに利用できる。

大規模データ処理用統合分析エンジン「Apache Spark」

■概要

「Apache Spark」は高速で汎用のクラスタコンピューティングシステムであり、実行グラフをサポートする最適化エンジンとして機能する。

「Java」「Scala」「Python」「R」などに対する高水準APIと、高レベルの豊富なツール類を提供する。

→apache.org →Apache Spark

■高速処理機能

Sparkは「最先端のDAGスケジューラ」「クエリオプティマイザ」「物理実行エンジン」などを使用して、バッチデータとストリーミングデータの両方に対して高いパフォーマンスを実現する。

ステートフル計算用分散処理エンジン「Apache Flink」

■概要

「Apache Flink」は、無制限および有界データストリーム上でのステートフル計算のためのフレームワークおよび分散処理エンジン。

Flinkは、一般的なさまざまなクラスタ環境で動作し、メモリ内速度であらゆる規模のデータを計算できるように設計されている。

→apache.org →Apache Flink

■無制限および有界データセットの処理

Flinkでは、あらゆる種類のデータが一連のイベントとして生成され、データを無制限ストリームまたは有界ストリームとして処理できる。

「クレジットカード取引」「センサー測定」「マシンログ」「Webサイトまたはモバイルアプリケーションでのユーザー操作」などのデータがストリームとして生成される。

分散ストリーム処理フレームワーク「Apache Samza」

■概要

「Apache Samza」はリアルタイムでデータを処理し分析できるスケーラブルなデータ処理エンジン。

Samzaにより、「Apache Kafka」を含む複数のソースからリアルタイムでデータを処理するステートフルアプリケーションを構築できる。

大規模動作が可能であり、YARN上またはスタンドアロンライブラリとして実行するための柔軟なデプロイメントオプションをサポートしている。

→apache.org →Apache Samza

■ストリーム抽象化

Samzaはストリーム抽象化を実装できるプラガブルシステムをサポートしている。

ストリーム内の各メッセージは、キーと値のペアとしてモデル化される。

リアルタイムデータ処理最新TOPICS

【AI×リオ五輪×ニュース配信】JX通信社、リオ五輪出場選手ツイートのAIリアルタイム配信スタート(2016年08月05日 10:03)

JX通信社は、産経デジタルと協業し、 独自のAI(人工知能)によるニュース配信システムを活用して、 リオ五輪出場選手のツイートをリアルタイムに収集/解析し「産経ニュース」特設ページに自動掲載する仕組みを提供開始した。 【AIによるニュース配信システム】 ・リオ五輪に出場する全選手のTwitterアカウントの投稿を収集/解析  →注目すべき内容/話題の投稿を自動選別し掲載 ・競技別に...

リアルタイムデータ処理最新CLOSEUPコラム

無料資料プレゼント

新型コロナウイルス感染症渦の顧客エンゲージメント構築における戦略

講演資料を見るには、 プライバシーポリシーに同意して、送付先メールアドレスをご入力しご請求ください。

またご入力いただきました情報は、当該資料の作成・提供企業とも共有させていただき、当社及び各社のサービス、製品、セミナー、イベントなどのご案内に使用させていただきます。

本資料を見るには次の画面でアンケートに回答していただく必要があります。



セミナー講演資料公開中

失敗例から見る、JUnitによるJava単体テストの課題と、工数削減の方法~Jtestとは~

Webセミナー/ GMOのシングルサインオンサービス「トラスト・ログイン」販売/OEMパートナー募集 説明会 ~GMOグループとの協業でビジネスを加速させる~

「一人情シス」を助けるAWSのはじめ方(移行・セキュリティ・運用編)

  • 書籍

Analytics News ACCESS RANKING

  • OSSNEWSに広告を掲載しませんか?

facebook

twitter