街中の文字情報を即時翻訳 旅行中の新しい案内役へ

2016/03/09 Toshiba Clip編集部

街中の文字情報を即時翻訳 旅行中の新しい案内役へ

現代の社会では、看板や標識、案内板、メニューなど、街のいたるところに文字情報が溢れている。街中の文字情報は、人々の日常においてその重要性は非常に高い。私たちが初めての場所でもスムーズに観光を楽しめたり、料理を注文できたりするのは、そこに知りたい情報が記された文字があるからだ。

 

海外の旅行先で道に迷ったり、料理の注文に困ったという経験を持つ人はきっと少なくないだろう。もちろん、好きな料理を頼めないといったような小さな問題であれば、それもやがては旅の思い出となったり、自分の不勉強さを少し反省するきっかけにもなるかもしれない。しかし、時には状況が把握できなかったことで、大きなトラブルに巻き込まれてしまうこともある。

 

そういった深刻なケースを回避するには、馴染みのない文字をいかに母国語と同じように理解できるかが重要になるが、全ての言語を習得するのは不可能だ。そこでアプリ等の翻訳サービスなどが存在するが、既存のものでは十分に対応できないケースも多い。また国内においては、外国人観光客数が年々増加しており、訪日外国人の受け入れ先などからも、外国語の文字を翻訳する機能に対するニーズは高まっている。外国語の文字情報を手軽に、そして正確に把握できる技術やサービスの登場が待たれている。

 

東芝では、そうしたニーズに応えていくため、カメラで撮った画像に映る文字を翻訳することができる「カメラ画像文字認識技術」を開発。今回は「情景文字認識技術」とも呼ばれるこの技術に迫ることで、海外への渡航時に活躍する未来のウェアラブルデバイスの可能性を探った。

カメラに写る文字を即時に解析

カメラ画像認識技術は、カメラ画像から文字列を検出し認識するための技術で、日常生活で目に映る風景を切り取った画像から、文字情報を取得することができる。この技術を使えば、スマートフォンやタブレットの内蔵カメラで外国語の案内板を写すことで、その文字列を母国語で表示することが可能だ。「カメラで写す」という非常に手軽な操作で文字を母国語に変換できるこの機能は、海外を訪れた際に非常に心強い存在となるだろう。

カメラ画像認識技術 使用イメージ
タブレットで撮影した文字情報が翻訳される
https://www.toshiba.co.jp/rdc/detail/1504_01.htm

また、「文字を認識する」という機能を応用すれば、買い物中に商品名が書かれたタグを読み取ることで、ユーザーが知りたい情報をクラウドシステムから取得し、提示することも可能になる。人気ランキングや商品ラインナップなど、その場ですぐに知りたい情報を取得できるのは消費者にとってもうれしいことだ。そのほかにも、保守点検現場では、検査対象の製造銘板名にかざすと検査の手順が書かれたマニュアルを表示するようにすることで、保守点検作業支援に役立つなど「カメラ画像認識技術」は海外への渡航時だけではなく、社会の様々なシーンで活躍することが期待されている。

カメラ画像認識技術 応用イメージ
商品のタグを読み取り、人気ランキングなどユーザーがほしい情報を提示
https://www.toshiba.co.jp/tech/review/2015/07/70_07pdf/r01.pdf

学会トップクラスを誇る文字行検出技術

東芝ではこれまでもOCR(光学式文字認識)技術の研究開発に取り組んでおり、郵便物の宛名自動読み取り区分機や、帳票読取装置、ドキュメントリーダーなど、様々な製品の実用化に成功してきた。しかし、従来の文字認識技術では、主にスキャナで読み取ることで得られる文字画像が対象だった。

 

スキャナで読み取る文字画像に比べて、カメラ画像は様々な種類のフォントや背景が入り混じっているほか、照明環境の違いによって生じる輝度の変化や影の発生など文字を認識するのに不利な条件が多い。さらには、撮影方向によっては文字が変形してしまうこともあり、文字行を検出することが難しいという課題があった。

従来技術では検出が難しい文字
複雑な背景の中に文字が書かれている場合(写真左)、文字行が変形して写っている場合(写真中央上・写真右)、影が掛かり見えにくくなっている場合(写真中央下)
https://www.toshiba.co.jp/tech/review/2015/07/70_07pdf/r01.pdf

そこで顔認識や人物検出などの画像認識の研究で培った独自の画像特徴抽出技術などを活用することで新しい文字行検出技術を開発。これにより複雑な背景の中に文字が書かれている場合や、影が掛かり見えにくくなっている場合など、さまざまな変動要因により検出が難しい文字においても、それに影響されることなく文字を検出することが可能になった。

 

この技術は文字認識分野で世界最高レベルの国際会議であるICDARが提供している評価セットに対して、学会トップクラスの文字行検出性能(F値76.2%)を達成。世界的にもレベルの高い技術であることが証明されている。

カメラ画像文字認識技術の構成
カメラ画像文字認識技術の構成
https://www.toshiba.co.jp/tech/review/2015/07/70_07pdf/r01.pdf

グラス型スマートデバイスの未来の機能

現時点でも十分手軽に文字情報の翻訳を行えるカメラ画像認識技術だが、将来はスマートフォンやタブレットの内蔵カメラを使わずとも、眼鏡のようにかけるだけで目の前にある外国語を翻訳できるウェアラブルデバイスが登場する可能性もあるという。

 

外国語で記された案内板をあたかも母国語で記載されているかのように表示することができるデバイスが登場すれば、旅行者にとって便利なだけでなく、商業施設や交通機関の職員の負荷を軽減することにもつながる。カメラ画像認識技術の実用化は、海外がより身近になった現代社会において非常に重要な役割を果たすだろう。

 

またカメラ画像認識技術の最大の特長は、実世界のいたるところに存在している文字列という「アナログ情報」を、文字コード列という「デジタル情報」へと変換できるということだ。今後はデジタルの領域がさらに成長し、私たちの日常生活へと汲みこまれていくことが予想されるが、こうした技術はアナログ情報で構成される実世界と、デジタル情報で構成される仮想世界とをつなぐ橋渡し的な存在として、ますます重要度を増していくだろう。

 

さまざまなシーンでの応用が待たれるカメラ画像認識技術。東芝の最先端の技術が、いまはまだ想像もつかないところで、将来社会の欠かせないピースとして活躍しているかもしれない。

この動画は2016年1月27日に公開されたものです。

東芝レビュー カメラ画像文字認識技術
https://www.toshiba.co.jp/tech/review/2015/07/70_07pdf/r01.pdf

Related Contents