逆転の発想で世界最高精度の新常識!【前編】 ~もう画像認識AIに、大量の教師データはいりません

2022/12/16 Toshiba Clip編集部

この記事の要点は...

  • 製造や社会インフラの現場を悩ます「データハングリー」とは?
  • 最低1枚からでも、高精度で対象を認識できる『Few−shot画像検出AI』誕生!
  • 多様な異常も、少ないインプットで『異常箇所検出AI』が正しく検知!
逆転の発想で世界最高精度の新常識!【前編】 ~もう画像認識AIに、大量の教師データはいりません

国内のAI市場が、急速に拡大している。2025年には、2020年度比で約2倍の1.9兆円にまで膨らむという予測もある。AIは社会課題の解決に広く活用され、UNESCO※1などは、SDGs達成に貢献するようなAIプロジェクト 100件を、2022年3月に発表。たとえば、学校の所在地が記録されず教育機会が失われる課題に対して、衛星画像とAIを活用したマッピング(地図上に正確な学校の位置を示す取り組み)が取り上げられた※2。この記事で注目する画像認識AIは、ディープラーニング(深層学習)によって精度が向上することで様々な業種・業態での導入が見込まれ、その分析結果の利活用が期待されている。

※1:国際連合教育科学文化機関の略称。世界における教育、科学、文化の発展と推進を目的としている。
※2:School mapping using AI and high-resolution satellite imagery

ただし、精度の高い画像認識AIを開発するには、上述した衛星画像など大量のデータが必要だ。しかし、データを集めるのは容易でなくコストもかかるので、導入へのハードルが高い。その課題解決の一助になる、世界最高精度の技術を東芝が開発した。それが、『Few−shot物体検出AI』と『異常箇所検出AI』だ。それぞれの技術について、開発担当者の話から要諦をまとめた。前編となる本記事では、画像認識AIの現状と両技術の凄さに迫る。

製造や社会インフラの現場を悩ます「データハングリー」とは?

約5億4200万年前、古生代カンブリア紀の初頭に突如、現在でも見られる動物の門(生物分類の階級の1つ)の多くが一気に出現し、生物に多様性が生まれた。これをカンブリア爆発と呼ぶ。進化生物学者で古生物学者のアンドリュー・パーカー氏は、眼を獲得した生物の誕生が爆発的進化の大きな要因とする「光スイッチ説」を唱えた。これを画像や動画のデータをもとに学習を深めるディープラーニングと重ねて、AIの急速な発展を語る論調が多い。画像認識がAIにとってどれほど重要かを、如実に表す逸話だ。

ディープラーニングが画像認識AIの発展に大きく貢献したことは、論を俟たない。しかし、これが一振りですべてを叶える魔法の杖だと考えるのは、間違いだ。東芝 研究開発センターの小林大祐氏は、画像認識AIの課題について、こう語る。

「画像認識AIが対象をしっかりと認識するためには、学習用の大量のデータ、いわゆる教師データが必要です。画像データと、それが何を表しているかの正解情報が多いほどディープラーニングは進み、精度の高い画像認識AIとなります。しかし、大量の画像データを揃えるにはコストや手間もかかりますし、そもそも社外秘の機密情報では画像データ自体を入手できません」(小林氏)

東芝研究開発センター 知能化システム研究所 メディアAIラボラトリー 小林 大祐氏

東芝研究開発センター 知能化システム研究所 メディアAIラボラトリー 小林 大祐氏

このように、大量のデータを必要とするディープラーニングは、一般的に「データハングリー」と呼ばれている。しかし、製造や社会インフラの現場で、データハングリーは好まれない。小林氏と同じラボに所属する河村氏は、こう指摘する。

「工場などの現場では、新製品が発売されるとその製造に合わせて、新しい機材や資材などが使われます。他の製品の製造に画像認識AIを導入していた場合、新しい製品を解析対象に追加する必要があります。このように新製品が登場するたびに大量のデータを学習させるのは、コストと手間がかかりすぎます。

また、データの頻度も重要です。たとえば、電力などの社会インフラは安定稼働が大前提で設計されているため、仮に異常を検知したい場合、画像認識AIが検出すべきデータが発生すること自体が稀です。つまり、必要な画像データを集められず、AIが学習できないという課題があります」(河村氏)

東芝研究開発センター 知能化システム研究所 メディアAIラボラトリー河村 直輝氏

東芝研究開発センター 知能化システム研究所 メディアAIラボラトリー河村 直輝氏

最低1枚からでも、高精度で対象を認識する『Few−shot画像検出AI』誕生!

データハングリー、データの頻度という課題から、画像認識AIの活用へ踏み出せない企業が多いのが事実だ。そこで東芝が開発したのが、少ない画像データでも学習可能な、世界最高精度のディープラーニング手法、「Few−shot物体検出AI」と「異常箇所検出AI」である。「Few−shot物体検出AI」は小林氏が、「異常箇所検出AI」は河村氏が開発を務めた。どちらも、少ない画像データで学習できるだけでなく、学習していない新しい対象物や異常箇所を高い精度で検出できる。

「Few−shot物体検出AI」の概要を小林氏は、「1〜10枚の画像データと、それに対応する正解情報を使って新しい物体を検出する技術」と説明する。このAIの背景にある理論は東芝独自のものではなく、一般でも確立されており研究が進んでいるという。では、東芝の「Few−shot画像検出AI」は、何が新しいのか?

「従来のAIモデルは、事前に正解となる情報を付与された対象物があれば認識し、それ以外は『背景』として扱っていました。しかし今回は、背景として扱っていた物を含めて、画像に写っていれば『物は物として』自動的に学習します」と小林氏。これによって、1枚の画像の中に物体らしいものがあれば、検出対象として認識できるようになった。この流れをかみ砕いて説明するとこうなる。

まず正解情報には囚われず、多種多様な画像データを膨大に学習させる。この時点で、読み込んだ画像に映る物体の名前は分からないが、それが「なにかしらの物体であることを認識する」アルゴリズムができあがる。これが「自己教師あり学習」だ。

「物は物として」すべて認識するAI

「物は物として」すべて認識するAI

次に、実際に検出させたい物体を読み込ませる。たとえば、工場の現場だと「ねじ」の画像1~10枚を学習させる。すると「物らしい」領域から、「ねじ」に近しい形状のものを勝手に判断するようになる。さらには、たとえ見た目が違っても、指定した画像とカテゴリが同じであれば「ねじ」とAIが判断する。人間の子どもが、新しいものをどんどん覚えるのと似ているかもしれない。これはAIを社会実装する上で、大きな推進力になったと言っていい。

「凄かったのは、鳥の画像認識です。黒くて細い体格の鳥の画像を一枚だけ『bird』として登録したのですが、茶色で羽毛がフワフワの丸っこい鳥も、正確に『bird』と認識しました。従来の方法を使うと『羊』と認識していたので、かなり高い精度です。これだけ種類も見た目も異なっているのに、正確に当てられたことに驚きました」(小林氏)

種類と見た目が異なる画像でも、『Few−shot画像検出AI』は正確に検出する

種類と見た目が異なる画像でも、『Few−shot画像検出AI』は正確に検出する

透かし絵のように、お手本を重ねて異常を見つける『異常箇所検出AI』

さて、もう一方の画像認識AIである『異常箇所検出AI』について解説していこう。このAIは、橋などの社会インフラを点検する際に、たった数枚の正常画像を用意するだけで、世界最高の精度で異常箇所を検出できるのが特徴だ。比較的多く見つかるひび、さびの他に、水漏れ、異物の付着、部品の脱落といった発生頻度が低い異常も高精度に検出できる。

河村氏によると「調べたい画像データと、いくつかの正常画像データを、異常箇所検出AIに入力します。すると、正常画像データをお手本にして、それと見え方が違っている箇所を、異常度合の高い領域として検出する」そうだ。

かみ砕いて説明するとこうだ。まず、社会インフラの正常画像データを大量に学習させ、正常とは異なる箇所に注目するAIをつくる。ここでのポイントは「過剰な検出を差し引く」ことだ。たとえば、正常画像の中で少し影になっているなど、「それは異常と捉えなくてもいい」場合でも、AIは律儀に過剰検出してしまう。そこで、あらかじめ正常画像データどうしを比較しておき、その差分は無視していいように検出を抑制するのだ。こうすることで、本当に注目するべき箇所のみを異常として扱えるようになる。

正常画像どうしを比較したときの過剰検知を抑制する

正常画像どうしを比較したときの過剰検知を抑制する

次に、社会インフラの現場で、例えば鉄塔の写真を何枚か撮影する。この写真と過去の点検時に撮影した正常な写真を、学習済みの異常箇所検出AIのネットワークに入力。すると、撮影した現在の鉄塔の写真と、以前の正常な鉄塔の写真を透かし絵のように重ね合わせて、一致しない部分を異常として判断する。なお、両方の写真を同じ角度や位置に合わせるよう、補正も行われている。さらに、正常な画像と一致しない程度に点数をつけて、点数の高さに応じてAIが色づけをする。赤いほど異常度が高く、青くなれば異常度が低いことを示す。

数枚の正常画像から異常を検出し、異常なほど赤色にする

数枚の正常画像から異常を検出し、異常なほど赤色にする

「異常を検知すると一口に言っても、様々なケースがあって、数え出したらキリがないんですよ。AIが異常と判断するためには、ひびわれ、さびなど、膨大な種類の事例をインプットしておく必要がありました。異常箇所検出AIでは、現場で大量の写真を準備しなくても、異常と判断できるようになったという意味では、画期的な開発だったと思います」(河村氏)

「Few−shot物体検出AI」と「異常箇所検出AI」は、いずれも大量の教師データを必要とせず、少ない画像点数で的確に認識するAIだ。それにより、現場レベルでの活用も多く、期待されている。前述した通り、どちらも論文レベルではすでに研究が進んでいたのだが、今回、特筆すべきは、実装を見据えた開発が進んだことだ。後編では、なぜ東芝は、世界に先駆けて少ない画像で認識するAIを実現できたのか。研究開発ストーリーと、東芝が見据える未来について迫る。

Related Contents