「音声認識(Speech Recognition)」とは、人の音声(会話)をコンピュータに認識させることで、「話し言葉をテキストデータに変換」あるいは「音声の特徴を捉えて声を出している人を識別」などを行う機能を指す。

  • 音声認識(speech recognition)とは

音声認識(speech recognition)とは

「音声認識(Speech Recognition)」とは、人の音声(会話)をコンピュータに認識させることで、「話し言葉をテキストデータに変換」あるいは「音声の特徴を捉えて声を出している人を識別」などを行う機能を指す。

目次

「音声認識」とは
■概要
■関連用語
・音声入力
・音声操作
・話者認識
■性能指標

音声認識における処理手順

音声認識技術の構成要素
■概要
■音声波形
■音素
■音響モデル
・音響モデルとは
・音響モデルによる音素特定
・音響モデルの精度
■パターンマッチ辞書モデル
・パターンマッチとは
・音声認識処理でのパターンマッチ辞書(音声認識辞書)
・辞書構造
・パターンマッチング探索方法
■言語モデル
・言語モデルとは
・音素の並び方に関する制約

主な音声認識技術
■動的時間伸縮法
■隠れマルコフモデル(HMM)
■ミッシングフィーチャー理論(MFT)
■幾何学的音源分離(GSS)

音声認識の弱点

音声認識技術の活用例

「音声認識」とは

■概要

音声認識(Speech Recognition)」とは、人の音声(会話)をコンピュータに認識させることで、「話し言葉をテキストデータに変換」あるいは「音声の特徴を捉えて声を出している人を識別」などを行う機能を指す。

■関連用語

音声認識」に関連する用語がいくつかある。

音声入力

音声入力とは「文字列を入力する機能」に該当する。「ディクテーション(聞き取り)」と呼ばれることもある。

音声操作

音声操作とは「音声認識によりアプリケーションを操作する機能」を指す。

話者認識

話者認識とは、あらかじめ記録しておいた音声パターンと比較して、「話者が誰なのかを識別し個人認証を行う」機能を指す。

■性能指標

音声認識システムの性能は、一般的に「正確度」と「速度」で評価される。

正確度は「単語誤り率(WER:Word Error Rate)」で表され、速度は「実時間係数(RTF:Real Time Factor)」で表される。

音声認識における処理手順

音声認識処理は複雑な処理や高い精度を求められる技術であり、音声認識における処理手順を簡潔に表した場合、一般的に下記の手順になる。
1.音声入力
2.話者分離
3.ノイズ処理
4.入力された音声を音波に変換
5.音波から音素を特定
6.音素の並びをあらかじめ登録してある辞書とマッチング
7.単語変換
8.変換された単語をつなぎ合わせて文章を作成
9.テキスト出力

このように、音声認識処理は「音声→音波→音素→単語→単語連結(予測)→文章」という複雑なプロセスを経て行われる。

音声認識技術の構成要素

■概要

音声認識処理においては、前提となるデータ(モデル)が必要となる。

音声認識技術のコアとなるモデルとして「音響モデル」「パターンマッチ辞書モデル」「言語モデル」などに大別される。

音声認識は、これら複数のモデルを利用して実現される。

■音声波形

音声認識において、スタートなる元データは人間の音声だが、音声のままではデータ処理に適さない。

音声は振動であるため波という形で表現できる。そこで、音声を振動の波を表現する「音声波形」という形に変換することで、音声認識処理を行いやすくできる。

■音素

「音素」とは意味を区別するための音声の最小構成単位を指す。

日本語の場合、音素は下記のように定義されている。
・母音:アイウエオ
・撥音:ン
・子音:23種類

例えば「りんご」を音素に変換すると「r-i-n-g-o」となり、このアルファベット一文字ずつの単位が音素となる。

音声認識技術では、「音声波形」から、音の最小構成単位である「音素」を特定し、それを手がかりにしてテキストに変換していく。

■音響モデル

音響モデルとは

一般的に、音声の「音響的な特徴」と「言語的な特徴」は分離して扱われる。

音響モデルとは、「音響的な特徴」を示すもので、「認識対象の音素がそれぞれどのような周波数特性を持っているかを表したもの」を指す。

一般的な音響モデルは、数千人/数千時間の音声データを統計的に処理したものをベースとしている。

音響モデルの表現としては「混合正規分布を出力確率とした隠れマルコフモデル」が広く用いられている。

音響モデルによる音素特定

音響モデルを利用して、切り出した音声波形から周波数成分や時間変化から特徴量を分析することで音素を判別できる。

音響モデルの精度

音声波形は、話者や周囲の環境によって異なるため、認識率を向上させるためにはさまざまなサンプルデータが必要となる。

■パターンマッチ辞書モデル

パターンマッチとは

パターンマッチとは「正解データと比較して同一なら正解と判断する手法」を意味する。

音声認識処理でのパターンマッチ辞書(音声認識辞書)

音声認識処理で利用されるパターンマッチ辞書には、「音素の並び」と「それに対応した単語」が構造的に格納されている。

パターンマッチ辞書を事前に用意しておき、分析対象データが辞書に登録されている正解データとマッチするかを判断する。

このパターンマッチの手法は、音声認識におけるテキスト変換処理の理論基礎になっている。

辞書構造

音声波形の前方から1つずつ音素を探索していく場合、辞書構造として探索しやすい構造で保持しておくことにより、パターンマッチング探索の速度効率を向上できる。

その場合、音素をノードで表現して、共通音素は共通ノードに集約されるようにネットワーク構造(Trie木などの木構造)で表現する。

例えば、「たまご」「たまげる」「たまぐし」の3つの単語があり、それらを探索する場合は同じ経路を通るため、共通する部分である「たま」に集約されるようなネットワーク構造で表現される。

パターンマッチング探索方法

「前方探索」以外にも「後方探索」などのさまざまな探索方法がある。

■言語モデル

パターンマッチ辞書モデルで、音素と言葉をつなぎ合わせることができたら、その単語と後に続く単語のつながりなどを考えて文章を表現していく。

文章は単語と単語のつながりで構成されているため、前後の単語から予測をすることで文章として表現していく必要がある。

言語モデルとは

言語モデルとは「大量の日本語テキストを統計処理したもの」で、音素の並び方に関する制約から、文字列や単語列が言語的特徴として適切かを評価するために使われる。

言語モデルでは、ある単語の状態から、次の単語に移動する際に、どの程度そのつながりが発生するのかについて確率で表現し定義される。

現在の状態から次の状態に遷移する確率を定義するモデルとしては「HMM(隠れマルコフモデル)」などが使われている。

音素の並び方に関する制約

例えば、「あなた(a-n-a-t-a)」という音素の並びの直後では、「が (g-a)」「は(w-a)」「の(n-o)」「に(n-i)」などの音素が続く確率が高くなり、逆に「み(m-i)」「ぬ(n-u)」などの確率は低いものとなる。

また、「南極は・・・」の場合では、「寒い」と続く可能性は高いが、「温かい」と続く可能性は低いように、実際において適切な意味合いなのかについての妥当性判断条件として利用される。

主な音声認識技術

音声認識技術として、さまざまな理論やモデルが利用されている。

■動的時間伸縮法

「動的時間伸縮法(DTW:Dynamic Time Warping)は、音声認識研究の初期で利用された手法で、時間または速さの異なる2つの信号シーケンスの間の類似度を測るアルゴリズムのこと。

認識できる語彙が限定されるため、隠れマルコフモデルに基づく手法が一般化したことにより利用されなくなっている。

■隠れマルコフモデル(HMM)

「隠れマルコフモデル(HMM:Hidden Markov Model)」は、時系列的に変動するデータを確率的なモデルで表現する。

音声信号を10ミリ秒程度の短時間でみた場合、断片的あるいは短時間の定常信号と見ることができ、多くの確率過程の連鎖と考えることで、近似的に定常過程と見なすことができる。

機械学習手法(サポートベクターマシンなど)などでは、データは時刻ごとに独立したデータであると仮定しており、そのデータの順番に意味がないという前提を持っている。

隠れマルコフモデルでは、時系列の観測データに対して、観測はできないが、データ変動(遷移)が確率的に起こっているものとして、その潜在的なデータに応じて出力データが得られるという二段構えのモデルになっている。

隠れマルコフモデルの特徴
1.ある時点の状態は1つ前の状態のみに依存する
2.状態が直接は観測できない
3.状態に依存して観測可能な変数の値(確率分布)が決定される

隠れマルコフモデルは、音声認識技術において主流として使われていた認識モデルだが、近年では、リカレントネットワーク(LSTM:Long Short-Term Memory)に置き代わってきている。

■ミッシングフィーチャー理論(MFT)

「ミッシングフィーチャー理論(MFT:Missing Feature Theory)」は、得られた音声の特徴量に歪みや雑音がどの程度含まれているかを推定し、時間軸と周波数軸に対して信頼度をマップとして持たせて、低信頼度の特徴量にはマスクをかけたり、失われた音声を復元する処理などに利用される。

■幾何学的音源分離(GSS)

「幾何学的音源分離(GSS:Geometric Source Separation)」は、複数の音源を分離する技術。音源間に相関が無ければ、複数のマイクからの入力情報によって比較的簡単に音源分離とその位置情報(音源定位)が得られる。

これをミッシングフィーチャー理論の雑音情報として信頼度マップに反映させれば、騒音下や同時発話の状況でも認識率を向上できる。

音声認識の弱点

音声認識技術は、従来と比較すると、ディープラーニング技術などを利用することで、大幅に機能や精度が向上しているが、「複数人同時発話」や「周囲のノイズが大きい状況」などでは十分な精度を得るのは難しい。

そのため、音声認識技術の特性を理解し、適切な用途で利活用する必要がある。

音声認識技術の活用例

音声認識技術は、以下の例のように、生活の一部として一般的に普及してきている。
・パーソナルアシスタント機能---Apple「Siri」、Android「Google Now」、NTTドコモ「しゃべってコンシェル」
音声認識家電
・スマートスピーカー---「Amazon Echo」「Google Home」
・コミュニケーションロボット---ソフトバンク「Pepper」
・視聴覚障害者支援
・コンタクトセンター業務支援 など

 

参考元サイト

音声認識最新TOPICS

企業が注目する、人工知能チャットボット(2017年03月06日 10:00)

2017年、人工知能の応用領域として注目を集めそうなのが、チャットボットである。 フェイスブックがチャットボットのプラットホームを発表し、マイクロソフトの新CEOが「チャットボットはコンピューティングのパラダイムシフト」だと宣言したのをはじめ、アメリカで若者に人気があるKik、高いセキュリティが特徴のTelegram、企業向けのSlackなど、世界中の有力チャットアプリの多くが人気を博している。...

無料資料プレゼント

第2回「多要素認証の種類と方法」

講演資料を見るには、 プライバシーポリシーに同意して、送付先メールアドレスをご入力しご請求ください。

またご入力いただきました情報は、当該資料の作成・提供企業とも共有させていただき、当社及び各社のサービス、製品、セミナー、イベントなどのご案内に使用させていただきます。

本資料を見るには次の画面でアンケートに回答していただく必要があります。



  • KSKサイド001
  • OSSNEWSに広告を掲載しませんか?

facebook

twitter