人間の声をコンピュータに認識させることで、話し言葉を文字列に変換したり、あるいは音声の特徴をとらえて声を出している人を識別したりする認識技術である。

  • 音声認識(speech recognition)とは

音声認識(speech recognition)とは

人間の声をコンピュータに認識させることで、話し言葉を文字列に変換したり、あるいは音声の特徴をとらえて声を出している人を識別したりする認識技術である。

音声認識(speech recognition)」とは、人間の声をコンピュータに認識させることで、話し言葉を文字列に変換したり、あるいは音声の特徴をとらえて声を出している人を識別したりする認識技術である。

音声認識には前提となるデータが必要となる。音声認識技術のコアとなるデータは、音響モデル、言語モデルに大別される。

音響モデルとは、数千人、数千時間の音声データを統計的に処理したものを基礎としている。さらに音の波形は、話者や環境によって異なるので、認識率をあげるためには様々なサンプルデータも必要となる。音響モデルでは、それらのデータの周波数成分や時間変化の分析を使って、それぞれの声を認識する。

言語モデルは、日本語テキストを統計処理したものであり、文字列や単語列が日本語として適切かを評価するために使われる。

音声認識は、これら音響モデルと言語モデルを組み合わせて実現される。音声認識は、スマートフォンやカーナビゲーションへの搭載、視聴覚障害者支援のほか、キーボードやマウスに代わる新しいコンピュータの操作方法としても注目されている。

なお、声に含まれる言語情報を用いる音声認識に対して、声に含まれる個人情報を用いる技術は声紋認証と言われる。
https://www.advanced-media.co.jp/amivoice

音声認識最新TOPICS

Googleの音声認識API「Cloud Speech API」(2016年11月28日 10:00)

2016年7月、米グーグルが2種類の機械学習APIをオープンベータに移行したことを発表した。

2種類とは、自然言語処理API「Google Cloud Natural Language API」と音声認識API「Google Cloud Speech API」である。

  • KSKサイド002
  • OSSNEWSに広告を掲載しませんか?

facebook

twitter