タグの一覧はこちら

音声認識（speech recognition）とは

「音声認識(Speech Recognition)」とは、人の音声(会話)をコンピュータに認識させることで、「話し言葉をテキストデータに変換」あるいは「音声の特徴を捉えて声を出している人を識別」などを行う機能を指す。音声認識技術は、生活の一部として一般的に普及してきている。

概要

「音声認識(Speech Recognition)」とは、人の音声(会話)をコンピュータに認識させることで、「話し言葉をテキストデータに変換」あるいは「音声の特徴を捉えて声を出している人を識別」などを行う機能を指す。

性能指標

音声認識システムの性能は、一般的に「正確度」と「速度」で評価される。

正確度は「単語誤り率(WER：Word Error Rate)」で表され、速度は「実時間係数(RTF：Real Time Factor)」で表される。

音声認識における処理手順

音声認識処理は複雑な処理や高い精度を求められる技術であり、音声認識における処理手順を簡潔に表した場合、一般的に下記の手順になる。

1．音声入力
2．話者分離
3．ノイズ処理
4．入力された音声を音波に変換
5．音波から音素を特定
6．音素の並びをあらかじめ登録してある辞書とマッチング
7．単語変換
8．変換された単語をつなぎ合わせて文章を作成
9．テキスト出力

このように、音声認識処理は「音声→音波→音素→単語→単語連結(予測)→文章」という複雑なプロセスを経て行われる。

音声認識の弱点

音声認識技術は、従来と比較すると、ディープラーニング技術などを利用することで、大幅に機能や精度が向上しているが、「複数人同時発話」や「周囲のノイズが大きい状況」などでは十分な精度を得るのは難しい。

そのため、音声認識技術の特性を理解し、適切な用途で利活用する必要がある。

音声認識技術の活用例

音声認識技術は、以下の例のように、生活の一部として一般的に普及してきている。

・パーソナルアシスタント機能---Apple「Siri」、Android「Google Now」、NTTドコモ「しゃべってコンシェル」
・音声認識家電
・スマートスピーカー---「Amazon Echo」「Google Home」
・コミュニケーションロボット---ソフトバンク「Pepper」
・視聴覚障害者支援
・コンタクトセンター業務支援　など

音声認識最新TOPICS

企業が注目する、人工知能チャットボット（2017年03月06日 10:00）

2017年、人工知能の応用領域として注目を集めそうなのが、チャットボットである。フェイスブックがチャットボットのプラットホームを発表し、マイクロソフトの新CEOが「チャットボットはコンピューティングのパラダイムシフト」だと宣言したのをはじめ、アメリカで若者に人気があるKik、高いセキュリティが特徴のTelegram、企業向けのSlackなど、世界中の有力チャットアプリの多くが人気を博している。...