音声認識処理においては、前提となるデータ(モデル)が必要となる。
音声認識技術のコアとなるモデルとして「音響モデル」「パターンマッチ辞書モデル」「言語モデル」などに大別される。
音声認識は、これら複数のモデルを利用して実現される。
音声認識において、スタートなる元データは人間の音声だが、音声のままではデータ処理に適さない。
音声は振動であるため波という形で表現できる。そこで、音声を振動の波を表現する「音声波形」という形に変換することで、音声認識処理を行いやすくできる。
「音素」とは意味を区別するための音声の最小構成単位を指す。
日本語の場合、音素は下記のように定義されている。
・母音:アイウエオ
・撥音:ン
・子音:23種類
例えば「りんご」を音素に変換すると「r-i-n-g-o」となり、このアルファベット一文字ずつの単位が音素となる。
音声認識技術では、「音声波形」から、音の最小構成単位である「音素」を特定し、それを手がかりにしてテキストに変換していく。
一般的に、音声の「音響的な特徴」と「言語的な特徴」は分離して扱われる。
音響モデルとは、「音響的な特徴」を示すもので、「認識対象の音素がそれぞれどのような周波数特性を持っているかを表したもの」を指す。
一般的な音響モデルは、数千人/数千時間の音声データを統計的に処理したものをベースとしている。
音響モデルの表現としては「混合正規分布を出力確率とした隠れマルコフモデル」が広く用いられている。
音響モデルを利用して、切り出した音声波形から周波数成分や時間変化から特徴量を分析することで音素を判別できる。
音声波形は、話者や周囲の環境によって異なるため、認識率を向上させるためにはさまざまなサンプルデータが必要となる。
パターンマッチとは「正解データと比較して同一なら正解と判断する手法」を意味する。
音声認識処理で利用されるパターンマッチ辞書には、「音素の並び」と「それに対応した単語」が構造的に格納されている。
パターンマッチ辞書を事前に用意しておき、分析対象データが辞書に登録されている正解データとマッチするかを判断する。
このパターンマッチの手法は、音声認識におけるテキスト変換処理の理論基礎になっている。
音声波形の前方から1つずつ音素を探索していく場合、辞書構造として探索しやすい構造で保持しておくことにより、パターンマッチング探索の速度効率を向上できる。
その場合、音素をノードで表現して、共通音素は共通ノードに集約されるようにネットワーク構造(Trie木などの木構造)で表現する。
例えば、「たまご」「たまげる」「たまぐし」の3つの単語があり、それらを探索する場合は同じ経路を通るため、共通する部分である「たま」に集約されるようなネットワーク構造で表現される。
「前方探索」以外にも「後方探索」などのさまざまな探索方法がある。
パターンマッチ辞書モデルで、音素と言葉をつなぎ合わせることができたら、その単語と後に続く単語のつながりなどを考えて文章を表現していく。
文章は単語と単語のつながりで構成されているため、前後の単語から予測をすることで文章として表現していく必要がある。
言語モデルとは「大量の日本語テキストを統計処理したもの」で、音素の並び方に関する制約から、文字列や単語列が言語的特徴として適切かを評価するために使われる。
言語モデルでは、ある単語の状態から、次の単語に移動する際に、どの程度そのつながりが発生するのかについて確率で表現し定義される。
現在の状態から次の状態に遷移する確率を定義するモデルとしては「HMM(隠れマルコフモデル)」などが使われている。
例えば、「あなた(a-n-a-t-a)」という音素の並びの直後では、「が (g-a)」「は(w-a)」「の(n-o)」「に(n-i)」などの音素が続く確率が高くなり、逆に「み(m-i)」「ぬ(n-u)」などの確率は低いものとなる。
また、「南極は・・・」の場合では、「寒い」と続く可能性は高いが、「温かい」と続く可能性は低いように、実際において適切な意味合いなのかについての妥当性判断条件として利用される。
2017年、人工知能の応用領域として注目を集めそうなのが、チャットボットである。 フェイスブックがチャットボットのプラットホームを発表し、マイクロソフトの新CEOが「チャットボットはコンピューティングのパラダイムシフト」だと宣言したのをはじめ、アメリカで若者に人気があるKik、高いセキュリティが特徴のTelegram、企業向けのSlackなど、世界中の有力チャットアプリの多くが人気を博している。...
Analytics News ACCESS RANKING