「テキストマイニング」とは、自然言語解析などの手法を用いて、大量のテキストデータを分析するプロセスにより、付加価値の高い「知見」を探し出す技術である。
・「テキストマイニング」概要
・日本語は「テキストマイニング」に不向き
・「データマイニング」と「テキストマイニング」の違い
・「テキストマイニング」の解析/分析手法
・テキストマイニング辞書
・テキストマイニングの活用例
・重要性が高まる「テキストマイニング」
・参考サイト
・Excelで学ぶテキストマイニング
・Excelで「E2D3(Excel to D3.js)」を利用してワードクラウドを作成する方法
・Excel上で動くテキストマイニングの前処理のためのフリーウェア「ExcelTTM」
・Excelアドイン「SQL Serverデータマイニングアドイン」
「テキストマイニング」とは、自然言語解析などの手法を用いて、大量のテキストデータを分析するプロセスにより、付加価値の高い「知見」を探し出す技術である。
「マイニング」とは「地下資源採掘」を意味しており、大量のテキストデータから有用な情報を「発掘」するという意味を含む。
人間が使用する一般的な文章データについて、文章を単語レベル(名詞/動詞/副詞/形容詞/慣用句/句読点など)に分割し、それらの「出現頻度」「出現順序」「出現傾向」「共出現相関」「時間的変化」「語意の性質」などを解析することで、「有益な情報」や「傾向」を取り出すことを目的とするテキストデータ分析手法である。
そもそも、日本語はテキストマイニングに不向きな言語である。
日本語は、英語のように各単語がスペースによって区切られていないため、まず、単語境界判別を行うために、形態素解析(単語レベルに分割する工程)を必要とする。
形態素解析プロセスにおいても、日本語には「文法ゆらぎ」「敬語」「尊敬語」「謙譲語」「方言」「漢字」などが混在しているため、これらすべてに対応し高い精度を出すためには、非常に高度な技術が必要となる。
しかし、近年のクラウド/AI技術などによる自然言語処理技術の発展により、実用的なレベルのテキストマイニングが可能となってきている。
「テキストマイニング」は、「テキストデータを対象とするデータマイニング」と捉えることもできるが、利用目的が異なる面もある。
「データマイニング」は、消費者側である「顧客個人の購買傾向分析」などの目的で使用されることが多い。
一方、「テキストマイニング」は、提供側である「企業の状況把握」に利用される傾向もある。「顧客アンケート」「コールセンターに蓄積されたテキストデータ」などのデータを分析することで、「自社評価」「商品評価」「サービス評価」「提供物/サービスに関する問題点」などの洗い出しに利用できる。
両者を連携させて、「テキストマイニング」による分析結果を「データマイニング」による分析に利用することで、より優れた洞察を得ることも可能となる。
テキストマイニングには多くの解析/分析手法が存在している。代表的な手法について紹介する。
「形態素解析」は、日本語の文章を最小単位の単語に分解し、品詞を特定するためのプロセスである。
例えば、「私はこの会社に10年間勤めています」という文章に対して形態素解析を行うと、「私」「は」「この会社」「に」「10年間」「勤めて」「います」の7点に分割を行う。
「構文解析」は、単語の品詞を利用して、単語同士の関係性(修飾と被修飾の関係)を抽出する技術である。
「私はこの会社に10年努めています」の例の場合、「10年間(副詞)」が修飾を行うのは「勤めて(動詞)」である関係性を抽出する。
「センチメント分析」とは、製品などに関する「顧客感情」を分析する手法である。
テキストに含まれる単語について、「高い評価」から「低い評価」までランク付けすることにより、「ポジティブ傾向」なのか「ネガティブ傾向」なのかについての評価を割り出す。
特に「この製品はやばい」というような曖昧な表現については、「若年層であればポジティブ」「高齢者であればネガティブ」のように辞書を設定しておくことにより、より適切な評価につなげることが可能となる。
テキストマイニングには、上記で紹介している分析手法以外にも、「クラスター分析」や「主成分分析」などの多くの分析手法が存在している。
テキストからの情報ではなく、属性データ(性別、年齢、国籍、居住地域)などと組み合わせることで、より高度な分析結果を得ることが可能になる。
テキストマイニングにとって、適切な分析処理プロセスが行われることが必要であるが、それ以上に「辞書」作成が重要とされている。
辞書は、単語の判定を行うために使用され、辞書に設定されているルールに基づき、品詞判定が行われる。例えば、「出かける」「お出かけになる」「外に行く」などの単語を「外出する」に集約させる役割を担う。
また、辞書には「定期的に更新し続けること」も求められる。世間では、日常的に新しい言葉が生み出され続け、ある言葉に対して別な意味が付加されたり、意味として変容してしまうことも起こりうる。
つまり、テキストマイニングにおいては、「辞書の量と質」が分析結果精度に直結するため、重きを置くべきものとされている。
テキストマイニングは、大量のテキストデータを分析して、その傾向や特徴を導き出すことが可能な技術として、多くの可能性について注目されている。
主な活用例について紹介する。
コンタクトセンターには、日々、多くの顧客からの不満や潜在的ニーズが蓄積されている。
テキストマイニングによって「顧客の声」を分析することにより、「顧客インサイト(顧客深層心理)」を発見することが可能となる。
分析によって得られた情報を活用することで、「新たな価値の創出」「製品企画」「ブランドイメージ向上」などのマーケティング施策につなげることができる。
企業内には、日常業務から生み出される「営業日報」「作業報告書」などのテキストデータが存在し、これらには多くの有益な情報が含まれている。
これらの情報をテキストマイニングで分析することにより、属人的で暗黙知となっているノウハウを抽出し、社内標準の業務ナレッジとして利用することも可能となる。
Twitterなどに書き込まれる「つぶやき」をテキストマイニングにかけることで、「株価予測」「選挙結果予測」「インフルエンザ流行予測」などの予測を行うためのベース情報として利用する試みが始まっている。
企業に収集/蓄積されているテキストデータについて、多くの貴重なマーケティング情報を含んでいることを認識していたが、非定型データであるため、そのまま利用することは難しく、さほど利用されることないまま放置されているのが一般的だった。
その後のテキストマイニング技術の発展により、それらのデータの分析が可能となってきており、分析を行うことで、企業にとって貴重な情報を得られることが期待されている。
さらに、音声認識技術の発展によりリアルタイムでの音声テキスト化も可能となってきており、コールセンターの顧客とのやり取りに対してテキストマイニング分析をかけることにより、企業にとって非常に重要な多くのヒントを得ることも可能になってきている。
また、インターネット上からも多くのテキストデータ収集が可能であり、自社に関する情報を収集して分析することで、自社と直接コンタクトがないユーザーの意見も参照できるようになった。
つまり、社内外から関連データを収集し、テキストマイニングを行うことで、「自社のブランド力向上」「商品/サービス改善」などにつながる「隠れていた情報」に対するアクセスが可能となることを意味しており、テキストマイニングに対する需要と重要性は大幅に高まっている。
表計算ツール「Microsoft Excel」を利用して、テキストマイニングを行うこともできる。
高度なテキストマイニングツールと比較すると、機能/性能面における制約などはあるが、基本的な機能を持つテキストマイニングツールとして活用できる。
Excelで行うテキストマイニングの身近な例としては、アンケート分析などがある。アンケートに書き込まれた「自由記述」に対して、「文章単位」「段落単位」「文節単位」「単語単位」に細分化を行い、頻出語を集計することにより、キーワードのマイニングを行える。
このブロックでは、「Excelを利用したデータマイニング」について「活用法」や「Excelアドイン」についてまとめられたサイトを紹介。
Excelを使用したテキストマイニングの方法や考え方について解説されている。
■テキストマイニングとは?
■文章を単語化する「分かち書き」
→相関係数
→クラスター分析
→主成分分析のV1、V2を使用した散布図
■キーワードを分かち書きしても終わりではない!?
→Knowledge Data Service →テキストマイニングについて|Excel(エクセル)で学ぶデータ分析ブログ
Excelで「D3.js」ベースのグラフ作成ツール「E2D3(Excel to D3.js)」を利用して、ワードクラウドを作成する方法についてまとめられている。
■ワードクラウドって何?
■ワードクラウドを作ってみよう!
■オープンデータで試してみよう!
■まとめ
→コラバド →Excelだけでワードクラウドをつくってみた!
Microsoft Excel上で動くテキストマイニングの前処理のためのフリーウェア「ExcelTTM」について紹介している。
「タグ付きテキスト」を解析して7種類の集計データ作成を行える。
■はじめに
■インストール for Win
■インストール for Mac OSX (for Mac、macOS Sierraまで対応)
■Win版とMac版の違い
■使い方
■スクリーンショット
■サンプルデータ
■FAQ
■最後に
SQL Serverと接続して、Excel上でデータマイニングを行えるアドインについてまとめられている。
各種ウィザードなどを使用して、テキストマイニングによる分析を行うことができる。
■機能
■データの処理
→データの探索
→サンプル データ
→予測計算
■モデルの構築と分析
→分類ウィザード
→推定ウィザード
→主要な影響元の分析
→アソシエーション ウィザード
→予測ウィザード
→高度なモデリング
■モデルのテスト、クエリ、および検証
→主要な影響元の分析
→分類マトリックス
→利益チャート
→クロス検証
→クエリ
→データ マイニング詳細クエリ エディター
■モデルの表示
→Excel におけるモデルの参照
→マイニング モデルのドキュメント化とスケーリング
■管理、ドキュメント化、配置
→モデルの管理
→トレース
→データ マイニング サーバーへの接続
■作業の開始
→Microsoft →Developer Network →Excel用のデータマイニングクライアント (SQL Serverデータマイニングアドイン)
オープンソースのデータ分析ソフト「RapidMiner」をフル活用する方法を連載!ソフトの特徴や分析チュートリアルを紹介します。
Analytics News ACCESS RANKING