音声認識技術の構成要素として、「概要」「音声波形」「音素」「音響モデル」「パターンマッチ辞書モデル」「言語モデル」について紹介。

音声認識技術の構成要素

音声認識技術の構成要素として、「概要」「音声波形」「音素」「音響モデル」「パターンマッチ辞書モデル」「言語モデル」について紹介。

概要

音声認識処理においては、前提となるデータ(モデル)が必要となる。

音声認識技術のコアとなるモデルとして「音響モデル」「パターンマッチ辞書モデル」「言語モデル」などに大別される。

音声認識は、これら複数のモデルを利用して実現される。

音声波形

音声認識において、スタートなる元データは人間の音声だが、音声のままではデータ処理に適さない。

音声は振動であるため波という形で表現できる。そこで、音声を振動の波を表現する「音声波形」という形に変換することで、音声認識処理を行いやすくできる。

音素

「音素」とは意味を区別するための音声の最小構成単位を指す。

日本語の場合、音素は下記のように定義されている。

・母音:アイウエオ
・撥音:ン
・子音:23種類

例えば「りんご」を音素に変換すると「r-i-n-g-o」となり、このアルファベット一文字ずつの単位が音素となる。

音声認識技術では、「音声波形」から、音の最小構成単位である「音素」を特定し、それを手がかりにしてテキストに変換していく。

音響モデル

■音響モデルとは

一般的に、音声の「音響的な特徴」と「言語的な特徴」は分離して扱われる。

音響モデルとは、「音響的な特徴」を示すもので、「認識対象の音素がそれぞれどのような周波数特性を持っているかを表したもの」を指す。

一般的な音響モデルは、数千人/数千時間の音声データを統計的に処理したものをベースとしている。

音響モデルの表現としては「混合正規分布を出力確率とした隠れマルコフモデル」が広く用いられている。

■音響モデルによる音素特定

音響モデルを利用して、切り出した音声波形から周波数成分や時間変化から特徴量を分析することで音素を判別できる。

■音響モデルの精度

音声波形は、話者や周囲の環境によって異なるため、認識率を向上させるためにはさまざまなサンプルデータが必要となる。

パターンマッチ辞書モデル

■パターンマッチとは

パターンマッチとは「正解データと比較して同一なら正解と判断する手法」を意味する。

■音声認識処理でのパターンマッチ辞書(音声認識辞書)

音声認識処理で利用されるパターンマッチ辞書には、「音素の並び」と「それに対応した単語」が構造的に格納されている。

パターンマッチ辞書を事前に用意しておき、分析対象データが辞書に登録されている正解データとマッチするかを判断する。

このパターンマッチの手法は、音声認識におけるテキスト変換処理の理論基礎になっている。

■辞書構造

音声波形の前方から1つずつ音素を探索していく場合、辞書構造として探索しやすい構造で保持しておくことにより、パターンマッチング探索の速度効率を向上できる。

その場合、音素をノードで表現して、共通音素は共通ノードに集約されるようにネットワーク構造(Trie木などの木構造)で表現する。

例えば、「たまご」「たまげる」「たまぐし」の3つの単語があり、それらを探索する場合は同じ経路を通るため、共通する部分である「たま」に集約されるようなネットワーク構造で表現される。

■パターンマッチング探索方法

「前方探索」以外にも「後方探索」などのさまざまな探索方法がある。

言語モデル

パターンマッチ辞書モデルで、音素と言葉をつなぎ合わせることができたら、その単語と後に続く単語のつながりなどを考えて文章を表現していく。

文章は単語と単語のつながりで構成されているため、前後の単語から予測をすることで文章として表現していく必要がある。

■言語モデルとは

言語モデルとは「大量の日本語テキストを統計処理したもの」で、音素の並び方に関する制約から、文字列や単語列が言語的特徴として適切かを評価するために使われる。

言語モデルでは、ある単語の状態から、次の単語に移動する際に、どの程度そのつながりが発生するのかについて確率で表現し定義される。

現在の状態から次の状態に遷移する確率を定義するモデルとしては「HMM(隠れマルコフモデル)」などが使われている。

■音素の並び方に関する制約

例えば、「あなた(a-n-a-t-a)」という音素の並びの直後では、「が (g-a)」「は(w-a)」「の(n-o)」「に(n-i)」などの音素が続く確率が高くなり、逆に「み(m-i)」「ぬ(n-u)」などの確率は低いものとなる。

また、「南極は・・・」の場合では、「寒い」と続く可能性は高いが、「温かい」と続く可能性は低いように、実際において適切な意味合いなのかについての妥当性判断条件として利用される。

音声認識最新TOPICS

企業が注目する、人工知能チャットボット(2017年03月06日 10:00)

2017年、人工知能の応用領域として注目を集めそうなのが、チャットボットである。 フェイスブックがチャットボットのプラットホームを発表し、マイクロソフトの新CEOが「チャットボットはコンピューティングのパラダイムシフト」だと宣言したのをはじめ、アメリカで若者に人気があるKik、高いセキュリティが特徴のTelegram、企業向けのSlackなど、世界中の有力チャットアプリの多くが人気を博している。...

イベント情報

セミナー講演資料

無料資料プレゼント

2021/03/04 セキュリティDAYS Keyspider資料

講演資料を見るには、 プライバシーポリシーに同意して、送付先メールアドレスをご入力しご請求ください。

またご入力いただきました情報は、当該資料の作成・提供企業とも共有させていただき、当社及び各社のサービス、製品、セミナー、イベントなどのご案内に使用させていただきます。

本資料を見るには次の画面でアンケートに回答していただく必要があります。



セミナー講演資料公開中

正社員・非正規社員の離職率を下げるためには? ~主観的な定性評価から、定量的なジョブ型評価への転換の重要性~

SMS認証の代替手段、より高セキュアな“電話発信認証サービスTELEO”とは? ~スマホによる多要素認証の比較と、SMS認証のリスク~

【Microsoft365ユーザー向け】クラウドメールサービスの保護に向いていない、ゲートウェイ方式メールセキュリティの課題 ~API連携・AI技術により、セキュリティ強化と運用効率化を実現~

  • 書籍

Analytics News ACCESS RANKING

  • OSSNEWSに広告を掲載しませんか?

facebook

twitter