TOPICS 2017年3月19日 10:00
中国の富士通研究開発中心(FRDC)は、ディープラーニングに改良を加え、少ない学習データでも、古文書文字を画像認識できる仕組みを開発したことを発表した。従来技術と比べると、1文字当たり約70%少ないデータ数で同じ精度を実現でき、古文書文字を電子化する作業の効率化につながるという。
従来のディープラーニングを用いた従来の文字認識では、あらかじめ文字画像と正解の文字を正しくひも付けたデータを認識エンジンに学習させていた。学習するデータが多いほど認識精度は高くなるが、中国の古文書文字にはさまざまな書体が存在し、同じ文字でも字形が異なる場合もあり、十分な量の学習データを用意することが難しいとされていた。
ディープラーニングに改良を加えた新技術では、これまでは正解の文字とひも付かずに学習データに使われていなかった文字画像データも学習に活用。(1)認識エンジンが文字画像に正解と考えられる「仮の文字ラベル」を与える、(2)それらの文字画像をランダムで2枚ずつペアにする、(3)2枚が同じ文字かどうかを別の認識エンジンが判断、(4)判断結果を認識エンジンにフィードバックして違いを学習させる――という手順で、認識精度を向上させるという。
同社のベンチマークテストによれば、新技術は81%の認識精度を達成するのに必要な学習データの数(1文字当たり)が、従来技術よりも約70%少なくて済むという。また1文字当たり従来技術だと約82%だった認識率が、新技術では88%まで向上したという。
ディープラーニングを改良した新技術は、中国各地の図書館や古文書データベース向けに提供する予定。もちろんこのディープラーニングを改良した技術は、日本語や韓国語などにも応用できる。さらに2018年度には富士通の人工知能(AI)技術「Human Centric AI Zinrai」への活用を目指し、文字のみでなく、植物の識別など、認識すべき対象が多い用途への導入が期待されている。
以上、下記URLからの要約。
http://www.itmedia.co.jp/news/articles/1702/22/news141.html
Dynatrace社が「IoT消費者信頼感報告:エンタープライズクラウド監視の課題」と題するレポートを発表し、消費者はIoTデバイスに対してさまざまな潜在的リスクを感じていることが分かった。 自家用車IoTに対する懸念 消費者の懸念の中で最も明白なのは自家用車であった。 調査対象者の中で85%が...
Analytics News ACCESS RANKING