AWSが提供している「Amazon Transcribe」は、開発者が音声テキスト変換機能をアプリケーションに簡単に追加できる自動音声認識サービス。
言語の変化や進化に対応できるように継続的に学習し改善が実施されている。
→aws.amazon.com →Amazon Transcribe
Amazon Transcribeでは、深層学習技術により、句読点の追加や整形が自動的に行われることで読みやすいテキストが出力される。
そのため、人間が読みやすく再編集する手間を軽減できる。
HTTP/2プロトコル経由のセキュアな接続を使用してライブオーディオストリームを送信することで、リアルタイムで音声をテキスト化できる。
Amazon Transcribeでは、一般的なWAVファイルやMP3ファイルなどの形式で保存されているオーディオファイルの文字起こしができる。
出力されたテキストには、すべての単語にタイムスタンプを付加できるため、テキストを探すことでオリジナルソース音声の頭出しが簡単にできる。
音声認識語彙の拡張とカスタマイズを実施できる。
「新しい言葉」「製品名」「分野固有用語」「個人名」などを登録することで、さらに正確な文字起こしができる。
Amazon Transcribeでは話者を認識して、文字起こしテキストに適切な属性(話者名など)を設定できる。
この機能により、会議などの複数話者による音声について文字起こしするための作業量を大幅に軽減できる。
Amazon Transcribeは、別々のチャネルで記録された各話者の音声と動画を処理できる。
各チャネルが識別されることで、チャネルのラベルが追加された単一のスクリプトが生成される。
この機能は、特にコンタクトセンターなどの業務で活用できる。
・カスタマーサポート通話管理
・音声/動画コンテンツの字幕生成
・音声アーカイブのカタログ化 など
Azureが提供している「Cognitive Services」の音声テキスト変換サービスAPI「Speech to Text」を利用すると、音声をすばやくテキストに変換できる。
さまざまな文字起こしシナリオをサポートでき、アプリに埋め込むための一連の機能を提供している。
→Azure →Cognitive Services →Speech to Text
このAPIを呼び出すと「リアルタイムストリーミング音声ソース」や「録音されたオーディオファイル」を読み込み、音声が認識されテキストに変換される。
サーバに音声が送信されると同時に部分的な認識も可能であるため、音声によってトリガーされるスマートアプリを構築できる。
「Speech to Text」では、多人数が参加する会議での会話をリアルタイムで文字起こしできる。
会議室にいる全員の音声をキャプチャしてテキスト出力できるため「どの参加者がどのタイミングでどのような内容を発言したのか?」を把握できる。
また、「Speech Devices SDK」と組み合わせて利用することで、マイクとビデオカメラを使用した会議のセットアップをサポートできる。
Microsoftが提供する最先端の音声認識モデルをベースにした「カスタムモデル」を構築することで、パーソナル化された音声認識を実現できる。
※定期的にメンテナンスを実施しておりますが、一部情報が古い場合がございます。ご了承ください。
2017年、人工知能の応用領域として注目を集めそうなのが、チャットボットである。 フェイスブックがチャットボットのプラットホームを発表し、マイクロソフトの新CEOが「チャットボットはコンピューティングのパラダイムシフト」だと宣言したのをはじめ、アメリカで若者に人気があるKik、高いセキュリティが特徴のTelegram、企業向けのSlackなど、世界中の有力チャットアプリの多くが人気を博している。...
Analytics News ACCESS RANKING