「非構造化データ」とは、企業の基幹システムに保管されている構造化データに対し、日常業務で増える電子文書や紙文書、写真、動画、音声、Webコンテンツなど構造化されていないデータを指す。
たとえば、従業員が作成したオフィス文書、顧客とのコミュニケーションで使われるメールやソーシャルメディア、あるいはコールセンターの通話記録や病院で撮影するレントゲン写真なども非構造化データに含まれる。
ビッグデータ活用と言う場合、構造化データだけでなく非構造化データも対象になっているのが一般的である。
年間増加率50%という勢いで増えづつけている非構造化データには、CRM(顧客関係管理)やERP(統合基幹業務システム)など業務システムに蓄積された構造化データでは発見できない貴重な情報が含まれているためである。
現在、時間とともに参照されなくなり、やがてファイルサーバなどに放置されたままになっている非構造化データを二次利用する動きが活発になっている。
さまざまなフォーマットで保存されている非構造化データを集約し分析することで、企業における新たな知見が得られるのではないかと期待されている。
オープンソースのデータ分析ソフト「RapidMiner」をフル活用する方法を連載!ソフトの特徴や分析チュートリアルを紹介します。
Analytics News ACCESS RANKING