タグの一覧はこちら

主な音声認識技術

主な音声認識技術として、「動的時間伸縮法」「隠れマルコフモデル(HMM)」「ミッシングフィーチャー理論(MFT)」「幾何学的音源分離(GSS)」について紹介。

音声認識技術として、さまざまな理論やモデルが利用されている。

動的時間伸縮法

「動的時間伸縮法(DTW：Dynamic Time Warping)は、音声認識研究の初期で利用された手法で、時間または速さの異なる2つの信号シーケンスの間の類似度を測るアルゴリズムのこと。

認識できる語彙が限定されるため、隠れマルコフモデルに基づく手法が一般化したことにより利用されなくなっている。

隠れマルコフモデル(HMM)

■概要

「隠れマルコフモデル(HMM：Hidden Markov Model)」は、時系列的に変動するデータを確率的なモデルで表現する。

音声信号を10ミリ秒程度の短時間でみた場合、断片的あるいは短時間の定常信号と見ることができ、多くの確率過程の連鎖と考えることで、近似的に定常過程と見なすことができる。

機械学習手法(サポートベクターマシンなど)などでは、データは時刻ごとに独立したデータであると仮定しており、そのデータの順番に意味がないという前提を持っている。

隠れマルコフモデルでは、時系列の観測データに対して、観測はできないが、データ変動(遷移)が確率的に起こっているものとして、その潜在的なデータに応じて出力データが得られるという二段構えのモデルになっている。

■隠れマルコフモデルの特徴

1．ある時点の状態は１つ前の状態のみに依存する
2．状態が直接は観測できない
3．状態に依存して観測可能な変数の値(確率分布)が決定される

■隠れマルコフモデルの衰退

隠れマルコフモデルは、音声認識技術において主流として使われていた認識モデルだが、近年では、リカレントネットワーク(LSTM：Long Short-Term Memory)に置き代わってきている。

ミッシングフィーチャー理論(MFT)

「ミッシングフィーチャー理論(MFT：Missing Feature Theory)」は、得られた音声の特徴量に歪みや雑音がどの程度含まれているかを推定し、時間軸と周波数軸に対して信頼度をマップとして持たせて、低信頼度の特徴量にはマスクをかけたり、失われた音声を復元する処理などに利用される。

幾何学的音源分離(GSS)

「幾何学的音源分離(GSS：Geometric Source Separation)」は、複数の音源を分離する技術。音源間に相関が無ければ、複数のマイクからの入力情報によって比較的簡単に音源分離とその位置情報(音源定位)が得られる。

これをミッシングフィーチャー理論の雑音情報として信頼度マップに反映させれば、騒音下や同時発話の状況でも認識率を向上できる。

参考元サイト

※定期的にメンテナンスを実施しておりますが、一部情報が古い場合がございます。ご了承ください。

音声認識最新TOPICS

企業が注目する、人工知能チャットボット（2017年03月06日 10:00）

2017年、人工知能の応用領域として注目を集めそうなのが、チャットボットである。フェイスブックがチャットボットのプラットホームを発表し、マイクロソフトの新CEOが「チャットボットはコンピューティングのパラダイムシフト」だと宣言したのをはじめ、アメリカで若者に人気があるKik、高いセキュリティが特徴のTelegram、企業向けのSlackなど、世界中の有力チャットアプリの多くが人気を博している。...