Computer Visionとは

■概要

Computer Visionは、Azureが提供するクラウドベースのイメージ分析サービス。イメージを処理して情報を返す高度なアルゴリズムを利用できる。

■基本説明

Computer Vision APIは、画像を処理して情報を返すための最先端のアルゴリズムを提供する。

Computer Visionの各アルゴリズムは、ユーザーが関心を寄せた視覚的特徴に応じて、さまざまな方法でイメージのコンテンツを分析できる。

■オフィシャルサイト情報

オフィシャルサイト情報

→Azure　→Computer Vision

料金情報

→Azure　→Computer Vision　→Cognitive Services の価格 - Computer Vision API

主な特徴

■イメージ操作

Computer Visionでは、「JPEGファイル」や「PNGファイル」などの一般的なイメージファイルを操作する。

「イメージファイルアップロード」もしくは「イメージファイルURL指定」により、対象イメージファイルを分析できる。

■機能利用方法

「クライアントライブラリによるサービス呼び出し」もしくは「REST APIによる直接呼び出し」により、アプリケーションからComputer Vision APIを利用できる。

主な機能

Computer Visionを使用すると、イメージの視覚的特徴や性質に関する分析情報を取得して利用できる。

■画像分析

視覚的特徴タグ付け機能

数千個の認識可能な「オブジェクト」「生物」「風景」「動作」などのセットから、画像内の視覚的な特徴を識別してタグ付けする。

オブジェクト検出機能

たとえば「犬」「猫」「人物」が画像に含まれている場合、これらのオブジェクトと画像内での各オブジェクトの座標の一覧を取得できる。

画像内のオブジェクト間リレーションシップを処理するためのベース情報として利用できる。

イメージ分類機能

親子階層を備えたカテゴリ分類を使用して、イメージ全体を識別してタグ付けする。

イメージ説明機能

人間が判読できる言語(文章)でイメージ全体の説明を生成する。

顔検出機能

イメージ内の人物の顔を検出して、検出された各顔に関する情報を提示する。「座標」「推定性別」「推定年齢」などを取得できる。

著名人(ランドマーク)認識機能

ドメインモデルを使用して、世界各国の「20万人以上の著名人」や「9000以上の自然物や人工物のランドマーク」を認識する。

イメージ内で検出された人物が既知の著名人と一致するかを判定できる。

不適切イメージ検出機能

イメージ内の「成人向けコンテンツ」や「人種差別的コンテンツ」を検出する。検出強度はスライディングスケールで設定できる。

■テキスト分析

テキスト読み取り機能

光学式文字認識(OCR)によって画像内のテキストを検出し、認識した語句をマシンが読み取れる文字ストリームとして抽出する。

25の言語をサポートし、抽出されたテキストの言語を自動的に検出する。

手書き文字読み取り機能

「メモ」「手紙」「レポート」「ホワイトボード」「記入用紙」「レシート」「ポスター」「名刺」などの画像から手書き文字を検出し抽出する。

■サムネイル

サムネイル生成

あらゆる画像をベースにして高品質でストレージ効率の高いサムネイルを生成する。「サイズ」「形」「スタイル」のニーズに最も合ったものに画像を変更できる。

スマートトリミング

Computer Visionは、サムネイル生成後に、画像内のオブジェクトを分析して「関心領域」を特定し、関心領域の要件に合わせた画像トリミング「スマートトリミング」も行える。

ユーザーのニーズに応じて、元のイメージの縦横比とは異なる縦横比を使用して、生成されたサムネイルを表示できる。

参考元サイト

https://azure.microsoft.com/ja-jp/services/cognitive-services/computer-vision/

Computer Visionとは

Computer Visionは、Azureが提供するクラウドベースのイメージ分析サービス。イメージを処理して情報を返す高度なアルゴリズムを利用できる。