リアルタイムデータ処理機能を提供する代表的なApacheプロダクトを紹介。
「Apache Storm」は、オープンソースのリアルタイムビッグデータ処理フレームワーク。
「耐障害性」と「優れた高速分散処理」を特徴としている。
「Apache Storm」は高速処理性能により、1ノード1秒あたりに100万以上のタプル(複数の構成要素からなる組)を発生させたベンチマーク結果が出ている。
「Apache Kafka」は分散ストリーミングプラットフォーム。
主な用途として、リアルタイムのデータパイプラインとストリーミングアプリの構築に使用される。
「水平方向拡張」「耐故障性」「高速処理」などの特徴があり、数千の企業で本番稼働している。
「Apache Kafka」はストリーム機能の他に、分散ファイルシステム機能も提供する。
Kafkaに書き込まれたデータはディスクに書き込まれ、耐障害性のために複製される。
Kafkaは「コミットログストレージ用途」「レプリケーション用途」「伝播専用の一種の特殊用途分散ファイルシステム用途」などに利用できる。
「Apache Spark」は高速で汎用のクラスタコンピューティングシステムであり、実行グラフをサポートする最適化エンジンとして機能する。
「Java」「Scala」「Python」「R」などに対する高水準APIと、高レベルの豊富なツール類を提供する。
Sparkは「最先端のDAGスケジューラ」「クエリオプティマイザ」「物理実行エンジン」などを使用して、バッチデータとストリーミングデータの両方に対して高いパフォーマンスを実現する。
「Apache Flink」は、無制限および有界データストリーム上でのステートフル計算のためのフレームワークおよび分散処理エンジン。
Flinkは、一般的なさまざまなクラスタ環境で動作し、メモリ内速度であらゆる規模のデータを計算できるように設計されている。
Flinkでは、あらゆる種類のデータが一連のイベントとして生成され、データを無制限ストリームまたは有界ストリームとして処理できる。
「クレジットカード取引」「センサー測定」「マシンログ」「Webサイトまたはモバイルアプリケーションでのユーザー操作」などのデータがストリームとして生成される。
「Apache Samza」はリアルタイムでデータを処理し分析できるスケーラブルなデータ処理エンジン。
Samzaにより、「Apache Kafka」を含む複数のソースからリアルタイムでデータを処理するステートフルアプリケーションを構築できる。
大規模動作が可能であり、YARN上またはスタンドアロンライブラリとして実行するための柔軟なデプロイメントオプションをサポートしている。
Samzaはストリーム抽象化を実装できるプラガブルシステムをサポートしている。
ストリーム内の各メッセージは、キーと値のペアとしてモデル化される。
JX通信社は、産経デジタルと協業し、 独自のAI(人工知能)によるニュース配信システムを活用して、 リオ五輪出場選手のツイートをリアルタイムに収集/解析し「産経ニュース」特設ページに自動掲載する仕組みを提供開始した。 【AIによるニュース配信システム】 ・リオ五輪に出場する全選手のTwitterアカウントの投稿を収集/解析 →注目すべき内容/話題の投稿を自動選別し掲載 ・競技別に...
Analytics News ACCESS RANKING