RapidMinerとは
■概要
・基本説明
■主な特徴
・分析プラットフォームにおけるリーダーポジション
・ノンプログラミングでのデータ分析
■分析処理
・分析処理フロー
・分析機能
・データ準備
・データクレンジング
・モデリング
・モデル検証
■主な機能
・データ可視化機能
・対応データ形式
・バッチ処理による自動化機能
・機能拡張
RapidMiner製品
■オープンソース無償版「RapidMiner Studio」
・概要
・単体プラットフォームで分析を完結
■チーム分析「RapidMiner Server」
・概要
・高速分析処理
・シームレスに展開
■ビッグデータ処理基盤「RapidMiner Radoop」
・概要
・ビジュアルワークフローデザイナー
・自動分析計画
・スクリプト連携
・セキュリティ
■クラウド環境「RapidMiner Cloud」
・概要
・高速処理
オフィシャルサイト情報(RapidMiner日本正規代理店-KSKアナリティクス, RapidMiner Japan Partner-)
・トップページ
・ライセンス情報
RapidMiner(ラピッドマイナー)とは、「データマイニング」「機械学習」「予測分析」などを行える統合的データ分析プラットフォームであり、使いやすいGUIでデータ分析を行える点を特徴としている。
RapidMinerは統合型データ分析プラットフォームで、「データ準備機能」「データ統合機能」「ETL(加工/整形)機能」「分析(機械学習)機能」「予測モデル展開機能」「レポーティング機能」などを備えており、R言語などによる統計分析にも対応している。
プログラミングなしで、簡単にデータ分析/可視化を行える点を特徴としており、「機械故障予測」「離反顧客予測」「商品レコメンド」「クレーム要因特定」など、さまざまな用途に活用できる。
RapidMinerは、ガートナー社が行っている分析プラットフォーム調査においてリーダーポジションを獲得しており、商用製品である「SAS」「SPSS」と並ぶ高い評価を得ている。
ガートナー社は、RapidMinerの強みについて、「簡単に分析できる操作性」「ビッグデータを処理できる機能性」「高度な分析にも対応できる拡張性」などを挙げており、RapidMinerの高信頼と高機能を裏付ける調査結果となっている。
RapidMinerは、プログラミングを行わずに、ドラッグ&ドロップのGUI操作のみでデータ分析を行える。GUIでドラッグ&ドロップの直感的操作によって分析パイプラインをデザインし、分類やパターン発見などの複雑な分析を行える。
ノンプログラミングであるため、RapidMiner特有のコマンド習得などを行う必要はなく、学習コストを低く抑えられるメリットがある。不明な部分については、チュートリアルや開発コミュニティ情報など、さまざまな媒体から情報を得ることができる。
ビジネスを想定した分析テンプレートも用意されており、参考にしながら、実務に則した分析を開始できる。
データ処理の基本として、「データ準備」→「データ分析」→「結果評価」という流れで進む。
分析処理フロー「プロセス」を作成し、プロセスに含まれる「オペレータ」ブロックをリンクさせていくことで予測モデルを作成する。
分析実行後に、分析によって得られた知見から予測モデルを修正し、これらの処理を繰り返し実施することで、予測モデルを完成させていく。予測モデルの精度が高まれば実運用段階に進む。
分析機能として、「一般的によく使われる分析モデルのアルゴリズム」や「1500以上の定義済み関数」を含む豊富なライブラリが用意されている。
これらのライブラリを組み合わせることで、さまざまなユースケースに対して対応できるモデルを構築できる。
データを分析するためには、データ準備(データ前処理)プロセスが必要であり、RapidMinerは強力なデータ準備機能を備えている。
主なデータ準備機能
・データ統合機能(データ集約、フィルタリング、ソート、結合)
・データ変換機能
・データ加工(成形)機能
・フィーチャーエンジニアリング機能
・高度な属性重み付け機能 など
データ準備後に、データの中から誤りや重複を洗い出し、異質なデータを取り除いて整理するための「データクレンジング」を行う。RapidMinerは、データクレンジングのためのさまざまなアプローチを提供している。
主なデータクレンジング機能
・重複特定/削除機能
・異常値検出/除去機能
・標準化機能
・属性影響を測定する重み付け方式
・高度な次元削減技術
・自己組織化マップ(SOM:Self-Organizing Map) など
RapidMinerは、高度なモデリング機能を提供し、モデル作成をサポートする。
主なモデリング機能
・機械学習機能の幅設定
・分類、回帰、クラスタリング
・連想マイニング、頻出アイテムセットと類似性計算
・アンサンブルと階層モデル
・100以上の追加モデリング演算子
・「R」「Python」「カスタムスクリプト」のシームレス統合
・プロセス制御機能
・最適化ループと分岐 など
RapidMinerは、モデル検証機能として、次のような機能を提供している。
・クロス検証
・スプリット検証
・信頼性パフォーマンス計算
・有意性テスト計算
・RMSE(Root Mean Square Error)
・AUC(Area Under the Curve) など
RapidMinerは、チャートエンジンによる30種類以上の視覚化オプションを提供している。分析結果を可視化することで、データから集計を超える新たな知見を得られる。
また、データを取り込む段階で、自動的に基礎統計量を計算するため、データ概要を素早く把握できる。
主な可視化表現
・属性名とタイプのグラフィカル表示
・散布図
・散布図行列
・バブルチャート
・ヒストグラム
・箱ひげ図
・ヒートマップ
・自己組織化マップ
・バブルチャート
・3次元表現 など
RapidMinerは、構造化データおよび非構造化データについて、60種類以上の幅広いデータ形式に対応している。任意のデータソースの任意のフォーマットに対して、任意のスケールで接続できる多くのデータコネクタが提供されている。
サポートしている主なデータ形式
・Excel
・CSV
・XML
・HTML
・PDF
・RTF
・プレーンテキスト
・各種データベース など
RapidMinerは、「GUIで分析プロセスを作成し実行する形式」に加えて、「作成したプロセスをバッチ処理で定期的に実行させる形式」にも対応しており、分析処理の定時実行を実施できる。
※バッチ処理には有償版が必要
RapidMinerは、プラグイン形式の機能拡張に対応している。数多く用意されている拡張機能をインストールすれば、さまざまな機能拡張を行える。
統計分析言語「R」やプログラミング言語「Python」と連携することで、より高度な分析も可能となる。
「RapidMiner Studio」は、オープンソース無償版のエディションで、無料で利用できる。
有償版と比較すると、一部制限はあるが、分析に必要な機能を完備しており、さまざまなデータ処理を実施できる。
テスト導入用のスモールスタートとして利用を開始して、効果が見えてきたら有償版に切り替えることもできる。
「RapidMiner Studio」は、「データ統合」「データ前処理」「ETL」「データ分析」「分析モデル作成用アルゴリズム」「分析モデル評価」「レポーティング」など、分析に必要な機能は豊富に揃っている。
「RapidMiner Studio」とDB環境があれば、大規模データ取込から分析レポートまでを作成でき、単体のプラットフォームで分析を完結できる。
「RapidMiner Server」は、「チームコラボレーション」「共同分析」「デプロイメント」などの機能を提供し、データサイエンスチームの生産性を向上させる分析プラットフォーム。
リポジトリと呼ばれる場所に保管した分析プロセスを実行することが可能で、複数のデータ分析者で担当を分担したい場合に効果を発揮し、分析結果の共有も行える。
「RapidMiner Server」の利用には、「RapidMiner Studio」を併用する。
「RapidMiner Server」は、「高スケーラビリティ」「分散アーキテクチャ」「マイクロサービスベースアーキテクチャ」などの特徴があり、「分析対象データ量」と「分析に必要なプロセス」から処理時間を計算し最適化を行うことで、信頼性の高い、高速データサイエンス環境を提供する。
「RapidMiner Server」はオープンなAPIを使用して、分析結果を業務システム/Webシステムなどに組み込み、既存システムのサービス向上につなげることができる。
数回のクリックで、モデルを公開し、サードパーティアプリケーション/カスタムアプリケーションと統合できる。機械学習をビジネスに埋め込むことで、エンタープライズインフラストラクチャとして活用することも可能となる。
「モデルパフォーマンス監視」「モデル劣化検出」などを行い、モデルのパフォーマンスの変化に自動的に反応できる。
「RapidMiner Radoop」はビッグデータ処理基盤であり、「Hadoop」または「Spark」インフラストラクチャに計算処理をプッシュすることで、ビッグデータ処理を高速化する。
Hadoop&Sparkのためのビジュアルワークフローデザイナーが用意されている。視覚的に表現されたデータ処理フローを使用して分析タスクを作成すると、すべての計算処理がHadoop環境にプッシュされ実行される。
ワークフロー設計者は、コーディングすることなく、データ準備と機械学習を実行できる。
「RapidMiner Radoop」は、ユーザーによる詳細な指示は必要とせずに、自動的に「最適な分析処理を行うための計画」を作成し実行できる。
「RapidMiner Radoop」は、「SparkR」「PySpark」「Pig」「HiveQL」などのスクリプトを呼び出して実行することができ、柔軟に連携できる。
「RapidMiner Radoop」では、ネットワーク認証にKerberos認証を採用している。また、データアクセス認証に「Apache Sentry」や「Apache Ranger」を採用しており、セキュリティは堅固に守られる。
クラウド環境である「RapidMiner Cloud」を使用すると、分析プロセスをクラウド上に保管できる。ローカルPCにインストールされている「RapidMiner Studio」にログインすることで場所を問わず分析を実行できる。
「RapidMiner Cloud」は、並列計算環境での大量データ分析のための高速処理能力を提供する。
→KSKアナリティクス, RapidMiner Japan Partner
→KSKアナリティクス, RapidMiner Japan Partner →ライセンス体系
参考元サイト
Analytics News ACCESS RANKING