タグの一覧はこちら

主要な音声認識サービス紹介

主要な音声認識サービス紹介として、「AWS：Amazon Transcribe」「Azure：Speech to Text」について紹介。

AWS「Amazon Transcribe」

■概要

AWSが提供している「Amazon Transcribe」は、開発者が音声テキスト変換機能をアプリケーションに簡単に追加できる自動音声認識サービス。

言語の変化や進化に対応できるように継続的に学習し改善が実施されている。

→aws.amazon.com　→Amazon Transcribe

■主な特徴

読みやすいテキストを出力

Amazon Transcribeでは、深層学習技術により、句読点の追加や整形が自動的に行われることで読みやすいテキストが出力される。

そのため、人間が読みやすく再編集する手間を軽減できる。

リアルタイム文字起こし

HTTP/2プロトコル経由のセキュアな接続を使用してライブオーディオストリームを送信することで、リアルタイムで音声をテキスト化できる。

■主な機能

タイムスタンプ生成機能

Amazon Transcribeでは、一般的なWAVファイルやMP3ファイルなどの形式で保存されているオーディオファイルの文字起こしができる。

出力されたテキストには、すべての単語にタイムスタンプを付加できるため、テキストを探すことでオリジナルソース音声の頭出しが簡単にできる。

カスタム語彙登録機能

音声認識語彙の拡張とカスタマイズを実施できる。

「新しい言葉」「製品名」「分野固有用語」「個人名」などを登録することで、さらに正確な文字起こしができる。

複数話者認識機能

Amazon Transcribeでは話者を認識して、文字起こしテキストに適切な属性(話者名など)を設定できる。

この機能により、会議などの複数話者による音声について文字起こしするための作業量を大幅に軽減できる。

チャネル識別機能

Amazon Transcribeは、別々のチャネルで記録された各話者の音声と動画を処理できる。

各チャネルが識別されることで、チャネルのラベルが追加された単一のスクリプトが生成される。

この機能は、特にコンタクトセンターなどの業務で活用できる。

■ユースケース

・カスタマーサポート通話管理
・音声/動画コンテンツの字幕生成
・音声アーカイブのカタログ化　など

Azure「Speech to Text」

■概要

Azureが提供している「Cognitive Services」の音声テキスト変換サービスAPI「Speech to Text」を利用すると、音声をすばやくテキストに変換できる。

さまざまな文字起こしシナリオをサポートでき、アプリに埋め込むための一連の機能を提供している。

→Azure　→Cognitive Services　→Speech to Text

■音声文字起こし

このAPIを呼び出すと「リアルタイムストリーミング音声ソース」や「録音されたオーディオファイル」を読み込み、音声が認識されテキストに変換される。

サーバに音声が送信されると同時に部分的な認識も可能であるため、音声によってトリガーされるスマートアプリを構築できる。

■会議内容のリアルタイム文字起こし

「Speech to Text」では、多人数が参加する会議での会話をリアルタイムで文字起こしできる。

会議室にいる全員の音声をキャプチャしてテキスト出力できるため「どの参加者がどのタイミングでどのような内容を発言したのか？」を把握できる。

また、「Speech Devices SDK」と組み合わせて利用することで、マイクとビデオカメラを使用した会議のセットアップをサポートできる。

■カスタムモデル

Microsoftが提供する最先端の音声認識モデルをベースにした「カスタムモデル」を構築することで、パーソナル化された音声認識を実現できる。

※定期的にメンテナンスを実施しておりますが、一部情報が古い場合がございます。ご了承ください。

音声認識最新TOPICS

企業が注目する、人工知能チャットボット（2017年03月06日 10:00）

2017年、人工知能の応用領域として注目を集めそうなのが、チャットボットである。フェイスブックがチャットボットのプラットホームを発表し、マイクロソフトの新CEOが「チャットボットはコンピューティングのパラダイムシフト」だと宣言したのをはじめ、アメリカで若者に人気があるKik、高いセキュリティが特徴のTelegram、企業向けのSlackなど、世界中の有力チャットアプリの多くが人気を博している。...