「音声認識(Speech Recognition)」とは、人の音声(会話)をコンピュータに認識させることで、「話し言葉をテキストデータに変換」あるいは「音声の特徴を捉えて声を出している人を識別」などを行う機能を指す。
「音声認識」に関連する用語がいくつかある。
音声入力とは「文字列を入力する機能」に該当する。
「ディクテーション(聞き取り)」と呼ばれることもある。
音声操作とは「音声認識によりアプリケーションを操作する機能」を指す。
話者認識とは、あらかじめ記録しておいた音声パターンと比較して、「話者が誰なのかを識別し個人認証を行う」機能を指す。
音声認識システムの性能は、一般的に「正確度」と「速度」で評価される。
正確度は「単語誤り率(WER:Word Error Rate)」で表され、速度は「実時間係数(RTF:Real Time Factor)」で表される。
音声認識処理は複雑な処理や高い精度を求められる技術であり、音声認識における処理手順を簡潔に表した場合、一般的に下記の手順になる。
1.音声入力
2.話者分離
3.ノイズ処理
4.入力された音声を音波に変換
5.音波から音素を特定
6.音素の並びをあらかじめ登録してある辞書とマッチング
7.単語変換
8.変換された単語をつなぎ合わせて文章を作成
9.テキスト出力
このように、音声認識処理は「音声→音波→音素→単語→単語連結(予測)→文章」という複雑なプロセスを経て行われる。
音声認識技術は、従来と比較すると、ディープラーニング技術などを利用することで、大幅に機能や精度が向上しているが、「複数人同時発話」や「周囲のノイズが大きい状況」などでは十分な精度を得るのは難しい。
そのため、音声認識技術の特性を理解し、適切な用途で利活用する必要がある。
音声認識技術は、以下の例のように、生活の一部として一般的に普及してきている。
・パーソナルアシスタント機能---Apple「Siri」、Android「Google Now」、NTTドコモ「しゃべってコンシェル」
・音声認識家電
・スマートスピーカー---「Amazon Echo」「Google Home」
・コミュニケーションロボット---ソフトバンク「Pepper」
・視聴覚障害者支援
・コンタクトセンター業務支援 など
2017年、人工知能の応用領域として注目を集めそうなのが、チャットボットである。 フェイスブックがチャットボットのプラットホームを発表し、マイクロソフトの新CEOが「チャットボットはコンピューティングのパラダイムシフト」だと宣言したのをはじめ、アメリカで若者に人気があるKik、高いセキュリティが特徴のTelegram、企業向けのSlackなど、世界中の有力チャットアプリの多くが人気を博している。...
Analytics News ACCESS RANKING