全ての人がビッグデータを活用できる「NYSOL」 | 第一線で活躍するオープンソースエキスパートが綴るスペシャルコラム。

全ての人がビッグデータを活用できる「NYSOL」

[2016年08月02日 ]
株式会社KSKアナリティクス

 NYSOL(「にそる」と読みます。)とは、大規模データの解析に関する様々な大学やプロジェクトでの研究成果を、広く産業界に還元する目的で構築されたソフトウェアツールの総称およびそのプロジェクト活動です。

 データ分析では、分析の手法やアルゴリズムにフォーカスしがちですが、実は一番時間と労力を割くのは、分析アルゴリズムに投入するためのデータを加工する「前処理」と呼ばれるプロセスです。
 この前処理(データ加工)は、データ分析のプロセスの中で8割以上も占めています。

 NYSOLには「頻出パターンマイニング」や「データマイニング・機械学習」「テキストマイニング」「可視化」などさまざまなパッケージがありますが、今回ご紹介するのは前処理(データ加工)を簡単に行えるNYSOLのMコマンドです。

 このMコマンドを用いることで、一般的にHadoopなどで分散処理が必要とされる数百GB〜TB(数千万件〜数億件程度)の大規模なデータでも一台のサーバーで処理することが可能です。

 一般的に前処理(データ加工)では、ETLツールやプログラムが使用されることが多いですが、よく発生する問題としてはマシンのメモリ不足により、データを処理出来ないことが発生します。
 また、大規模なデータを処理する場合、メモリ上では処理出来なくなりハードディスクで処理する場合もありますが、この際に処理スピードが極端に落ちることによって、処理が終わらないといった状況が発生することもあります。

 以下の図は1億件(10GB)のデータに対して、RやPostgreSQL、NYSOLのMコマンドで前処理を実施し、ベンチマークをとった際の結果です。

 棒グラフの左2つはRですが、一部の前処理がメモリ不足で処理が出来なくなりました。また、PostgreSQLは処理結果が得られるまでに10分以上かかります。さらにデータが増えると処理時間に顕著な差があらわれます。実際の前処理(データ加工)では複数回のコマンドが実行され、長期かつチームで行われることが普通ですので、単純計算でNYSOLでは1か月で終わるプロジェクトが他では何年もかかる計算になります。また、そもそもデータ加工が出来ない状況もあるかもしれません。

 NYSOLのMコマンドはこのデータを処理出来ない処理が終わらないの2つの問題を同時に解決します。しかも1台のマシンで充分のため複数台のマシンを用意するコストも削減します。

 さらにNYSOLのMコマンドはドキュメントが充実していますので、簡単に習熟することが出来ます。また、Mコマンドの簡単なチュートリアルを使い方ページに記載していますので、こちらから段階的に実施して頂くことをお勧めします。その前に、NYSOLをインストールされていない方はまずはインストールページをご覧下さい。

 何かお困りの際はコミュニティページへご質問を投稿して頂くことも可能です。また、講師付きかつテキストをご提供するトレーニングもございます。また、本格的にビジネスで運用される際はサポートコンサルティングもご提供しておりますので、お気軽にご相談下さい。

著者プロフィール

株式会社KSKアナリティクス

KSKアナリティクスのビジョンは、
優れたアナリティクスの「オープンソース・ソフトウェア」と、
現場と協働する「アナリティクス・サービス」で、
誰もが当たり前にデータを分析・活用できる社会を作ることです。

最新TOPICS

【講演資料を公開】7/28【サービス事業者向け】中小企業が狙われた、サプライチェーン攻撃の手口を解説 ~サイバー攻撃の被害に遭う中小企業の3つの共通点と、その対策~(2022年08月27日 09:15)

2022-07-28(木)15:00 - 16:00 「【サービス事業者向け】中小企業が狙われた、サプライチェーン攻撃の手口を解説 ~サイバー攻撃の被害に遭う中小企業の3つの共通点と、その対策~」 と題したウェビナーが開催されました。 皆様のご参加、誠にありがとうございました。 当日の資料は以下から無料でご覧いただけます。 ご興味のある企業さま、ぜひご覧ください。

関連タグ

スマートシティ(Smart City)

  • 用語集

スマートシティとは、「ICTやIoTなどの先端技術を用いて、基礎インフラと生活インフラサービスを効率的に管理/運営し、環境に配慮しながら人々の生活の質を高め、継続的な経済発展を目的とした新しい都市」を指す。街全体の電力エネルギーの有効利用を図り、生活インフラなどを無駄なく効率的に管理できるもので、省資源化を徹底した環境配慮型都市もしくは地域を目指す。

主成分分析(Principal Component Analysis)

  • 用語集

「主成分分析」とは、ビッグデータをはじめとした多変量データを統合し新たな総合指標を作り出し、多くの変数にウェイトをつけて少数の合成変数を作る統計手法である。ビッグデータ分析の現場などにおいて、多変量の情報をできるだけ損なわずに低次元空間に縮約する。多変量データを二次元や三次元データに縮約することで、データ全体の視覚化が可能となり、データのもつ情報を解釈しやすくなる。

データサイエンス(Data Science)

  • 用語集

「データサイエンス」とは情報学の一種であり、データを重視する学問である。

RFM分析()

  • 用語集

「RFM分析」とは、Recency、Frequency、Monetaryという3つの指標で顧客を並べ替え、グループ化した顧客の性質を明らかにする顧客分析の手法のひとつ。

共分散構造分析(Covariance Structure Analysis)

  • 用語集

分析者が質問項目間の因果関係について仮説をたて、複数の構成概念間の関係を検証する統計的手法。

関連記事

無料資料プレゼント

2021/03/04 セキュリティDAYS Keyspider資料

講演資料を見るには、 プライバシーポリシーに同意して、送付先メールアドレスをご入力しご請求ください。

またご入力いただきました情報は、当該資料の作成・提供企業とも共有させていただき、当社及び各社のサービス、製品、セミナー、イベントなどのご案内に使用させていただきます。

本資料を見るには次の画面でアンケートに回答していただく必要があります。



セミナー講演資料公開中

ネットワークエンジニアの減少で負担が増える、企業のネットワーク運用管理 〜監視と管理の統合により、さらなる運用効率化を実現〜

【企業ネットワーク向け】ローカルブレイクアウト、適用できないSaaSはありませんか?通信速度や運用に課題はありませんか? 〜LBOに最適なネットワーク機器や管理ツールによる解決策をご提案〜

【再放送】システム責任者が知っておくべき 「MySQLの高可用性/HA構成」 の選択肢と比較 〜 MySQLデータベースのダウンタイム“ゼロ”を目指す〜

  • 書籍

Analytics News ACCESS RANKING

facebook

twitter