全ての人がビッグデータを活用できる「NYSOL」 | 第一線で活躍するオープンソースエキスパートが綴るスペシャルコラム。

全ての人がビッグデータを活用できる「NYSOL」

[2016年08月02日 ]
株式会社KSKアナリティクス

 NYSOL(「にそる」と読みます。)とは、大規模データの解析に関する様々な大学やプロジェクトでの研究成果を、広く産業界に還元する目的で構築されたソフトウェアツールの総称およびそのプロジェクト活動です。

 データ分析では、分析の手法やアルゴリズムにフォーカスしがちですが、実は一番時間と労力を割くのは、分析アルゴリズムに投入するためのデータを加工する「前処理」と呼ばれるプロセスです。
 この前処理(データ加工)は、データ分析のプロセスの中で8割以上も占めています。

 NYSOLには「頻出パターンマイニング」や「データマイニング・機械学習」「テキストマイニング」「可視化」などさまざまなパッケージがありますが、今回ご紹介するのは前処理(データ加工)を簡単に行えるNYSOLのMコマンドです。

 このMコマンドを用いることで、一般的にHadoopなどで分散処理が必要とされる数百GB〜TB(数千万件〜数億件程度)の大規模なデータでも一台のサーバーで処理することが可能です。

 一般的に前処理(データ加工)では、ETLツールやプログラムが使用されることが多いですが、よく発生する問題としてはマシンのメモリ不足により、データを処理出来ないことが発生します。
 また、大規模なデータを処理する場合、メモリ上では処理出来なくなりハードディスクで処理する場合もありますが、この際に処理スピードが極端に落ちることによって、処理が終わらないといった状況が発生することもあります。

 以下の図は1億件(10GB)のデータに対して、RやPostgreSQL、NYSOLのMコマンドで前処理を実施し、ベンチマークをとった際の結果です。

 棒グラフの左2つはRですが、一部の前処理がメモリ不足で処理が出来なくなりました。また、PostgreSQLは処理結果が得られるまでに10分以上かかります。さらにデータが増えると処理時間に顕著な差があらわれます。実際の前処理(データ加工)では複数回のコマンドが実行され、長期かつチームで行われることが普通ですので、単純計算でNYSOLでは1か月で終わるプロジェクトが他では何年もかかる計算になります。また、そもそもデータ加工が出来ない状況もあるかもしれません。

 NYSOLのMコマンドはこのデータを処理出来ない処理が終わらないの2つの問題を同時に解決します。しかも1台のマシンで充分のため複数台のマシンを用意するコストも削減します。

 さらにNYSOLのMコマンドはドキュメントが充実していますので、簡単に習熟することが出来ます。また、Mコマンドの簡単なチュートリアルを使い方ページに記載していますので、こちらから段階的に実施して頂くことをお勧めします。その前に、NYSOLをインストールされていない方はまずはインストールページをご覧下さい。

 何かお困りの際はコミュニティページへご質問を投稿して頂くことも可能です。また、講師付きかつテキストをご提供するトレーニングもございます。また、本格的にビジネスで運用される際はサポートコンサルティングもご提供しておりますので、お気軽にご相談下さい。

著者プロフィール

株式会社KSKアナリティクス

KSKアナリティクスのビジョンは、
優れたアナリティクスの「オープンソース・ソフトウェア」と、
現場と協働する「アナリティクス・サービス」で、
誰もが当たり前にデータを分析・活用できる社会を作ることです。

最新TOPICS

【AI】パナソニックのR&D戦略---AI技術者を「5年後には1000人体制」に拡大、新卒採用ではAI特別枠(2017年04月21日 10:03)

パナソニックは、同社グループのR&D戦略について説明した。 【ポイント】 ・AI技術者を「3年後には300人体制」「5年後には1000人体制」に拡大する計画 ・大阪大学と共同講座を開設して、社内のデジタル系技術者を育成 ・新卒採用においては、AIを特別枠として設置し、4月からその1期生が入社している 【テーマ】 ・パナソニックは約100年前にアントレプレナーが起業した ・AI...

関連タグ

R(アール)

  • 用語集

「R」を用いることで、クロス集計や回帰分析、クラスター分析、シミュレーションなどの基本的な統計分析が可能となる。またオープンソースとしてだけでなく、パッケージを導入することで最新の分析手法を実行することもできる。

ディープラーニング(Deep Learning)

  • 用語集

「ディープラーニング(Deep Learning:深層学習)」とは、コンピュータによる機械学習の1種であり、人間の脳の階層構造をコンピュータで再現しようと言うアイデアに基づいた「ニューラルネットワーク」を改良し、画像や音声などの認識や、自動運転などの複雑な判断を可能にする。

コンジョイント分析(Conjoint Analysis)

  • 用語集

商品やサービスを構成する要素の最適な組み合わせを探るために多変量解析を用いた分析方法。

インメモリデータベース()

  • 用語集

データをストレージではなく、メインメモリ上に格納するよう設計されたデータベース。また、そのようなデータベースを構築・運用できるデータベース管理システム(DBMS)。「メインメモリデータベース(MMDB)」とも言う。

農業()

  • タグ

関連記事

  • KSKサイド006

facebook

twitter