「画像認識」とは
■概要
■基本説明
■パターン認識とは
・主なパターン認識技術
・パターン認識で利用される主な手法
■経緯
ディープラーニングでの画像認識
■特定物体認識
■ディープラーニングを利用する画像認識
・確率表示による対象物特定
活用事例
■セキュリティ
■文字認識
■顔認識
■医療
■農業
■工業
■マーケティング
画像認識ライブラリ
■ディープラーニングライブラリ
・OpenCV
・TensorFlow
・Caffe
・Chainer
■クラウドサービス
・Watson APIs「Watson Visual Recognition」
・Google Cloud Platform「Google Cloud Vision API」
・AWS「Amazon Rekognition」
・Azure「Computer Vision API」
「画像認識(Image Recognition)」とは、パターン認識技術の一種であり、画像データから、オブジェクト(文字/顔など)や、対象物の特徴(形状、寸法、数、明暗、色など)を抽出/分析/識別して認識検出する手法。
画像認識とは、画像から特徴をつかみ、対象物を識別するパターン認識技術の1つ。
画像データから対象物となる輪郭を洗い出し、背景から分離した上で特徴を抽出し、マッチングや変換を行い、目的となるオブジェクトや特徴を特定して認識する仕組みで、その対象物が何であるかを分析する。
人間の場合、「画像に写っているものが何であるか?」について、得ている経験から理解して判断を行い、画像に映る人物やオブジェクトを簡単に特定できる。人間なら無意識に行われている行為だが、ピクセル単位で情報を管理するコンピューターにとって、画像に何が写っているかを理解するのは非常に難しく、高度で複雑な処理となる。
画像認識は、コンピュータに「画像に何が写っているのか?」を理解させる技術であり、近年、大きく注目を集めている。
「パターン認識(Pattern Recognition)」とは、自然情報処理の1つで、「画像/音声などの雑多な情報を含むデータの中から一定の規則や意味を持つ対象を選別して取り出す処理」である。
人間の脳にとって、幼児/児童の発達段階において知覚/言語能力を獲得していく上で、ごく自然に行う過程だが、コンピュータで人為的に実現するためには精度/速度のどちらの面においても高いハードルとなる。
パターン認識には、画像認識に他にも、以下のような技術が含まれる。
・音声認識---音声データから人間の声を認識して取り出して言語として解釈
・光学文字認識(OCR)---画像データの中から文字を認識してテキストデータに変換
・全文検索システム---大量の文書情報の中から特定のキーワードを認識して文書の検索を実施 など
パターン認識での主な手法として、機械学習により大量のデータから識別パラメータを構成する非ルールベースの手法が主流となっている。
・ニューラルネットワーク
・SVM(サポートベクターマシン)
・k近傍識別器
・ベイズ分類 など
コンピュータによる画像認識研究は、1960年代から進められてきている。
2000年代以降、「人工知能(AI)におけるディープラーニング技術の進歩」と「ハードウェア性能の向上」により、画像認識の精度が飛躍的に向上し、人間と同等以上の画像認識性能に達している技術も登場するなど、近年著しい進化を遂げている。
さらに、スマートフォン/SNSの普及により膨大な写真データ(画像データ)が日々撮影されることで画像データ蓄積が加速している。これらのデータを活用するため、画像をコンピュータで認識するニーズは一層強まっていくと考えられている。
コンピュータが画像認識を行うためには、前段階として、画像から対象物を抽出する必要がある。
コンピュータは、画像データを「デジタル画像を構成する最小の要素であるピクセル単位情報(色調/輝度など)の集合体」として捉えるため、ノイズだらけの混沌とした情報の中から対象物を認識しなければならない。
画像認識では、ピクセル集合である画像データから、ある種のパターンを取り出し、そこから意味を読み取るという処理を通じて、画像に何が写っているかをコンピュータに理解させる。
画像認識の前に、コンピューターが画像を認識しやすくするために画像処理を行う。
画像処理は一般的に以下のような手順で行われる。
1.画像のノイズ/歪みなどを取り除く
2.明るさや色合いを調整
3.オブジェクトの輪郭を強調
4.領域抽出---画像からオブジェクトの領域を切り出す
領域抽出を行うことで、オブジェクトを一定の大きさで扱うことができるようになり、画像認識を行いやすくなる。
特定物体認識では、「膨大な学習用画像データ」と「それに対応するラベル(画像データが何を表すかについての情報)」を事前に登録しておき、入力された画像に写っている対象物について「それが何か」を特定する。
ディープラーニングを利用する画像認識では、大量の画像データを読み込んで、その中で特徴を細かく抽出していく処理を行う。特徴の識別が難しい画像認識の分野だからこそ、ディープラーニングはその学習能力を発揮し、物体認識率が大幅に上昇するという成果を生み出している。
大量の画像データから対象物の特徴を学習させることにより、未知のオブジェクトが写った画像データから、その対象物が何であるかについて確率で表現できるようになる。
「猫の子供」と「ライオンの子供」のように、人間でも判断に迷うような場合でも確率で提示できる。
画像認識技術は、データとテクノロジーを通じたパーソナライゼーションを可能にするもので、幅広い分野で多くのソリューションが実用化されている。
・監視カメラ映像分析---不審者侵入検出、犯罪者データベースとの照合
・顔認証システム---虹彩認証、空港での出入国管理
・文字読み取り技術(OCR:Optical Character Recognition)
・郵便区分機
・リアルタイム翻訳---カメラを使ってテキストをリアルタイムに翻訳する機能
・カメラアプリ
・デジタルカメラのスマイルシャッター機能
・画像診断---CT/MRIスキャンなどで撮影した体内画像から診断サポート
・農作物の生育状況把握
・製品検査---目視検査代替、製品欠陥検査、異常生産品検出
・製造オートメーション---部品選別、基板への部品の自動実装時の位置合せ
・自動運転アシスト技術
・商品レコメンド---ユーザー購入履歴から商品画像自動分類
ディープラーニングによる画像認識研究の発展により、画像認識技術は日常における実用段階にまで到達してきており、数多くの画像認識用ライブラリが登場している。
それらのライブラリは、単に画像認識を行うだけではなく、「その物体は何なのか?」「どのような状況なのか?」についてまで学習して判断できるレベルにまでなってきている。
代表的な画像認識ライブラリとして次のようなものがある。
OpenCVは、インテルが開発/公開しているオープンソースのライブラリで、画像処理/画像認識ライブラリの代表格として知られている。
画像認識だけでなく「画像ノイズ除去」「3次元画像処理」「AR/VR対応」など高度な機能を備えている。
TensorFlowは、Googleが開発している機械学習/ディープラーニング/多層ニューラルネットワークライブラリ。
データフローグラフを使用して複雑なネットワークを分かりやすく記述でき、画像認識にも利用できる。
Caffeはディープラーニングライブラリの1つで、特に画像認識に強いとされており、高速に処理できる特色がある。
http://caffe.berkeleyvision.org/
Chainerは、Preferred Networksが開発している日本製の深層学習フレームワーク。
Pythonでニューラルネットワークを柔軟に記述し学習させることができる。
「Watson Visual Recognition」は、IBMのWatson技術を利用した画像認識機能。
学習済モデルの利用が可能で、認識結果について日本語を含む多言語で得られる。
https://www.ibm.com/watson/jp-ja/developercloud/visual-recognition.html
「Google Cloud Vision API」は、Google Cloud Platformで利用できる画像認識サービス。学習済モデルを利用して多くの対象物を認識できる。
https://cloud.google.com/vision/?hl=ja
「Amazon Rekognition」は、AWSで利用できる画像/動画分析サービス。
アプリケーションに簡単に分析機能を組み込め、さまざまなオブジェクト(対象物、人、テキスト、シーン、アクティビティ、不適切コンテンツなど)を検出できる。
https://aws.amazon.com/jp/rekognition/
「Computer Vision API」はAzureで利用できる画像認識サービス。
画像から豊富な情報を抽出し、視覚データについて分類/処理できる。
画像内にあるビジュアルコンテンツに関する情報が返されラベル付けされ、不適切コンテンツの自動制限を有効化できる。
https://azure.microsoft.com/ja-jp/services/cognitive-services/computer-vision/
参考元サイト
パナソニックは、シンガポール国立大学との共同研究開発により世界最高水準の顔照合技術を開発したことを発表した。この技術には、ディープラーニングが活用され、左右90度近い横顔や明暗が強い屋外環境、サングラスやマスクで顔の一部が隠れている状態でも顔の照合を行えるという。 米国立標準技術研究所(NIST)が公開する、監視カメラなどが撮影しうるあらゆる条件を網羅したベンチマークデータセ...
Analytics News ACCESS RANKING