CLOSE UP コラム | Googleの音声認識API「Cloud Speech API」

Googleの音声認識API「Cloud Speech API」

CLOSE UP 事例

2016年11月28日
オープンソース活用研究所 所長 寺田雄一

2016年7月、米グーグルが2種類の機械学習APIをオープンベータに移行したことを発表した。

すなわち、自然言語処理API「Google Cloud Natural Language API」と音声認識API「Google Cloud Speech API」である。

自然言語処理API「Google Cloud Natural Language API」では、ユーザーはテキストの構造や意味を分析できるようになる。現在は英語とスペイン語、日本語が利用可能となっており、今後、言語は増えていく予定。

音声認識API「Google Cloud Speech API」は、「Google Search」が採用しているニューラルネットワーク技術を活用し、80種類を超える言語に対応して音声をテキストへ変換できる。またどのようなアプリケーションからでもリアルタイムストリーミングあるいはバッチモードで利用できるほか、騒音環境やリアルタイムで使うための機能も充実している。グーグルでは「見る、聞く、翻訳するためのAPI一式を提供する」と謳う。

すでに5,000社以上の企業がこの音声認識APIのアルファ版を利用するために登録していることでもわかるとおり、いま、注目を浴びているAPIである。

音声認識API「Google Cloud Speech」は業界の話題をさらう。

今回、音声認識API「Google Cloud Speech API」を開発者へ開放したことは、業界に波紋を投げかけている。

Googleの音声認識APIは、既存のサービスより優れた機能を提供するだけでなく、低価格で提供されると言われているからだ。

まず、業界最大手であるNuanceをはじめとする既存の音声認識プロバイダーとの競合が懸念されている。

グーグルの音声認識APIについては、このような噂がたっている。当初、衆目の関心を集めるために完全無料で提供される。その後の有償化においても、既存サービスより低価格のプランが用意される可能性が高い。さらにグーグルが音声認識業界のトップに立った後に、値上げするのではないかと、というものだ。

音声認識APIの公開は、Nuanceなどの音声認識プロバイダーに影響を与えるだけでなく、Appleへの牽制と見ることもできる。同社のバーチャルアシスタントSiriの音声認識能力は、Google製と比べて影が薄く、開発者がSiriの技術をアプリで使うためのAPIもまだ提供されていないからだ。

これまでもグーグルは、限定的に自社の音声技術を提供してきた。たとえば2015年には「Voice Interaction API」を発表しており、Androidの開発者はアプリに音声操作を追加することができるようになった。しかし、これまで音声認識APIの直接アクセスを開放したことはなかった。今後の動向が注目される。

下記サイトからの要約。
http://jp.techcrunch.com/2016/03/24/20160323google-opens-access-to-its-speech-recognition-api-going-head-to-head-with-nuance/
http://japan.zdnet.com/article/35086189/


著者プロフィール

オープンソース活用研究所 所長 寺田雄一

1993年、株式会社野村総合研究所(NRI)入社。 インフラ系エンジニア、ITアーキテクトとして、証券会社基幹系システム、証券オンライントレードシステム、損保代理店システム、大手流通業基幹系システムなど、大規模システムのアーキテクチャ設計、基盤構築に従事。 2003年、NRI社内に、オープンソースの専門組織の設立を企画、10月に日本初となるオープンソース・ソリューションセンター設立。 2006年、社内ベンチャー制度にて、オープンソース・ワンストップサービス 「OpenStandia(オープンスタンディア)」事業を開始。オープンソースを活用した、企業情報ポータル、情報分析、シングルサインオン、統合ID管理、ドキュメント管理、統合業務システム(ERP)などの事業を次々と展開。 オープンソースビジネス推進協議会(OBCI),OpenAMコンソーシアムなどの業界団体も設立。同会の理事、会長や、NPO法人日本ADempiereの理事などを歴任。 2013年、NRIを退社し、株式会社オープンソース活用研究所を設立。

最新TOPICS

最新情報はありません。

関連タグ

Amazon SageMaker(アマゾンセージメイカー)

  • AI

Amazon SageMakerは、さまざまな規模の機械学習モデルを迅速かつ簡単に構築+トレーニング+デプロイできるフルマネージド型機械学習プラットフォーム。

スマートIoTサービス(スマートアイオーティーサービス)

  • IoT

スマートIoTサービス(スマートアイオーティーサービス)は、データの「収集」「管理」「見える化」「異常検出時警報自動通知」などの機能を提供するIoTソリューション。

LoRA(ローラ)

  • 用語集

LPWAの規格の一種。LoRAという規格名は、「長距離」を意味する「Long Range」に由来し、少ない出力で最大8km程度という長い距離での通信を実現する。

音声認識(Speech Recognition)

  • 用語集

「音声認識(Speech Recognition)」とは、人の音声(会話)をコンピュータに認識させることで、「話し言葉をテキストデータに変換」あるいは「音声の特徴を捉えて声を出している人を識別」などを行う機能を指す。音声認識技術は、生活の一部として一般的に普及してきている。

自動運転車(Autonomous Car)

  • 用語集

自動運転車は、電子制御と自動運転装置を使用して、人間の手を介さずに出発地から目的地まで走行できる機能を有する。車両に搭載されたレーダー/カメラなどのセンサー類と、GPS(全地球測位システム)などを利用して、周囲の状況を把握して車両の走行制御を行う。

バックナンバー

関連記事

無料資料プレゼント

2021/03/04 セキュリティDAYS Keyspider資料

講演資料を見るには、 プライバシーポリシーに同意して、送付先メールアドレスをご入力しご請求ください。

またご入力いただきました情報は、当該資料の作成・提供企業とも共有させていただき、当社及び各社のサービス、製品、セミナー、イベントなどのご案内に使用させていただきます。

本資料を見るには次の画面でアンケートに回答していただく必要があります。



セミナー講演資料公開中

契約書、約款、規定等のWord文書の新旧対照表を簡単に作成する~提出、配布用の新旧対照表の作成だけでなく、契約書や社内規定の差分を簡単に抽出~

テレワーク、社員の動きがわからない。必要な時にすぐ相談できない。~バーチャルオフィスで社員の出勤状況を可視化、メンタルヘルスケアも~

PDFファイルの変換による再利用の促進とディスク使用量の圧縮 ~増大する文書の保管方法についてのアイデア(iText pdfOptimizer発表)~

  • 書籍

facebook

twitter