中国富士通、少ない学習データで古文書文字を認識するディープラーニング技術を開発。

Analytics News(アナリティクスニュース)

中国富士通、少ない学習データで古文書文字を認識するディープラーニング技術を開発。

TOPICS 2017年3月19日 10:00

中国富士通、少ない学習データで古文書文字を認識するディープラーニング技術を開発。

中国の富士通研究開発中心(FRDC)は、ディープラーニングに改良を加え、少ない学習データでも、古文書文字を画像認識できる仕組みを開発したことを発表した。従来技術と比べると、1文字当たり約70%少ないデータ数で同じ精度を実現でき、古文書文字を電子化する作業の効率化につながるという。

ディープラーニングを改良した新技術は、各図書館や古文書データベース向けに提供。

従来のディープラーニングを用いた従来の文字認識では、あらかじめ文字画像と正解の文字を正しくひも付けたデータを認識エンジンに学習させていた。学習するデータが多いほど認識精度は高くなるが、中国の古文書文字にはさまざまな書体が存在し、同じ文字でも字形が異なる場合もあり、十分な量の学習データを用意することが難しいとされていた。

ディープラーニングに改良を加えた新技術では、これまでは正解の文字とひも付かずに学習データに使われていなかった文字画像データも学習に活用。(1)認識エンジンが文字画像に正解と考えられる「仮の文字ラベル」を与える、(2)それらの文字画像をランダムで2枚ずつペアにする、(3)2枚が同じ文字かどうかを別の認識エンジンが判断、(4)判断結果を認識エンジンにフィードバックして違いを学習させる――という手順で、認識精度を向上させるという。

同社のベンチマークテストによれば、新技術は81%の認識精度を達成するのに必要な学習データの数(1文字当たり)が、従来技術よりも約70%少なくて済むという。また1文字当たり従来技術だと約82%だった認識率が、新技術では88%まで向上したという。

ディープラーニングを改良した新技術は、中国各地の図書館や古文書データベース向けに提供する予定。もちろんこのディープラーニングを改良した技術は、日本語や韓国語などにも応用できる。さらに2018年度には富士通の人工知能(AI)技術「Human Centric AI Zinrai」への活用を目指し、文字のみでなく、植物の識別など、認識すべき対象が多い用途への導入が期待されている。

以上、下記URLからの要約。
http://www.itmedia.co.jp/news/articles/1702/22/news141.html

最新TOPICS

【IoT】IoT信頼感レポート---消費者の自家用車IoTに対する懸念、IoTデリバリーチェーン問題点の正確な把握が不可欠(2019年08月27日 10:03)

Dynatrace社が「IoT消費者信頼感報告:エンタープライズクラウド監視の課題」と題するレポートを発表し、消費者はIoTデバイスに対してさまざまな潜在的リスクを感じていることが分かった。 自家用車IoTに対する懸念 消費者の懸念の中で最も明白なのは自家用車であった。 調査対象者の中で85%が...

最新CLOSEUPコラム

関連用語・タグ

イベント情報

無料資料プレゼント

2021/03/04 セキュリティDAYS Keyspider資料

講演資料を見るには、 プライバシーポリシーに同意して、送付先メールアドレスをご入力しご請求ください。

またご入力いただきました情報は、当該資料の作成・提供企業とも共有させていただき、当社及び各社のサービス、製品、セミナー、イベントなどのご案内に使用させていただきます。

本資料を見るには次の画面でアンケートに回答していただく必要があります。



セミナー講演資料公開中

「ゼロトラスト」の概要と、最初の一歩としての「IDライフサイクル管理」入門 ~増え続けるSaaSのID、権限を、「ID管理クラウドサービス Keyspider」で簡単管理~

顧客ロイヤルティ × Co-creation = 増やす 気になるCXとEXの関係性

AWSにおける運用設計のポイント

  • 書籍
  • OSSNEWSに広告を掲載しませんか?

facebook

twitter