言語でのAIの利用が今熱い

2021/03/25 Sinch and Pieter Buteneers

言語でのAIの利用が今熱い

ここ数年、ディープラーニングのアルゴリズムが進化し、ボードゲームで世界最高のプレーヤーを打ち負かし、人間と同じ(もしくはそれ以上の)精度で顔を認識できるようになっている。しかし、人間の言語には独特の複雑さがあり、これを習得することはAIの最も困難な課題の1つであることが分かっている。

 

この現状はもうすぐ変わるのだろうか?

 

コンピューターが人間の言語についてすべてを理解できるようになれば、世界中のブランド、企業、組織との関わり方が完全に変わるだろう。現在、ほとんどの企業はすべての顧客の質問に答えている時間がない。しかし、企業がいつでもどんな接点においても、すべての質問に耳を傾け、理解し、答えることができるとしたらどうだろうか。私のチームではすでに、顧客との1対1の会話をより多く設けるために、世界で最も革新的な企業数社およびそのテクノロジープラットフォームのエコシステムと連携している。しかし、取り組むべき課題は多い。

 

人間と同レベルの精度で顔が認識できるアルゴリズムを構築できたのが、2015年のことである。現在、FacebookのDeepFaceの精度は97.4%であり、人間による認識の精度が97.5%であるから、わずかに届いていない。参考までに、FBIの顔認識アルゴリズムの精度は85%にしか達しておらず、7件のうち1件以上で、まだ間違いが生じているということになる。

 

FBIのアルゴリズムは、エンジニアたちが手をかけて開発したものである。鼻のサイズや目の相対的な配置といったそれぞれの特徴は手動でプログラムされている。対照的にFacebookのアルゴリズムは、特徴を学習させた上で機能する。Facebookは、畳み込みニューラルネットワーク(CNN: Convolutional Neural Networks)と呼ばれる特別なディープラーニングアーキテクチャーを使用し、視覚野の様々な層が画像を処理する方法を模倣している。私たちは人間がどのように見えるかを正確に理解しているわけではないため、視覚野における各層の関係はアルゴリズムによって学習されている。

 

Facebookがこのアルゴリズムを実現できたのは、特徴を学習できるアーキテクチャーと、数百万人のユーザーの協力の下、友達同士で共有した写真で友達にタグを付けるという方法でラベル付けされた高品質のデータという、AIが人間のレベルに匹敵するのに欠かせない2つの重要なコンポーネントを適切に配置する方法を解明したからである。

 

言語が手の届くところに

視覚は、何百万もの異なる種が進化する過程で解決されたが、言語は視覚よりはるかに複雑なようである。私たちが知る限り、私たちは現在、複雑な言語を使って意思疎通を図る唯一の種だ。

 

文章がどういったものであるかを理解するために、AIアルゴリズムが特定の単語が発生した頻度のみをカウントする方法をとっていた時から、まだ10年も経っていない。しかしこの手法は、単語には同義語があり、使われるコンテキストによって単語の意味が変わってくるという事実を明らかに無視している。

 

2013年、GoogleのTomas Mikolov氏率いるチームは、単語の意味を学習できるアーキテクチャーを作る方法を発見した。同チームの作ったword2vecアルゴリズムは同義語を相互にマッピングすることで、サイズ、性別、速度などの意味をモデル化し、国とその首都といった機能的関係の学習すら可能であった。

 

しかし、このアルゴリズムでは文脈が考慮されていなかった。この分野に飛躍的進歩をもたらしたのが、2018年にGoogleが導入したBERTモデルである。Jacob Devlin氏のチームは、一般的に機械翻訳に使用されるアーキテクチャーを再利用し、文中の文脈に関連させて単語の意味を学習させた。

 

学習にはWikipediaの記事を使用し、記事で不足している単語を埋めるようにモデルを教えることで、チームはBERTモデルに言語構造を組み込むことに成功した。チームは限られた量の高品質のラベル付きデータのみを使用して、質問に対する正しい答えを見つけることから、文の意味を本当に理解することまで、様々なタスクに対してBERTを微調整できるようになった。適切なアーキテクチャーと大量の高品質データから学ぶという、言語理解を成功させる2つの重要な要素を、同チームは世界で初めて、実際に成功させたのである。

 

2019年、これをさらに進めたのが、Facebookの研究者たちである。彼らは、BERTと同様のモデルを100以上の言語で同時にトレーニングした。このモデルは、例えば英語など、1つの言語でタスクを学習し、アラビア語、中国語、ヒンディー語といった他の言語でも同じタスクに使用することができる。言語に依存しないこのモデルは、トレーニング対象の言語でBERTと同様のパフォーマンスを発揮していると同時に、ある言語から別の言語へ変えた際の影響も限定的であった。

 

ここまで紹介したテクニックはすべてがそれぞれ非常に素晴らしいものであるが、Googleの研究者たちは2020年の初め、幅広い言語理解タスクで人間のパフォーマンスを越えることについに成功した。Googleは、はるかに大規模なネットワークでこれまで以上に多くのデータを用いてトレーニングすることにより、BERTアーキテクチャーの能力を限界まで押し上げた。このモデルはT5モデルといい、文にラベル付けをしたり、質問に対す修正しました。る正しい答えを見つけたりする際に、人間よりも優れたパフォーマンスを発揮する。2020年10月にリリースされたmT5モデルは言語に依存しないモデルで、言語間の切り替えにおいて、バイリンガルの人間にほぼ匹敵するぐらい優れており、しかも100以上の言語への切り替えが一瞬で可能である。さらに2021年1月にGoogleが発表した兆パラメーターモデルにおいて、モデルがさらに拡大し、より強力になっている。

 

可能性

自分が思いつく言葉を使って書いたものを理解できるチャットボットを想像してほしい。そのチャットボットは実際に文脈を理解し、過去の会話を覚えているだろう。また、一般的な答えではなく真に核心を突いた答えを得ることができるだろう。

 

検索エンジンはどんな質問でも理解することができるようになり、適切な回答が得られ、キーワードが正しくなければ答えを得られないといったこともなくなるだろう。会社に行けば、仕事の手順について知っておくべきことをすべて知っているAIの同僚がいるようになる。正しい専門用語を知っていればGoogleが検索してくれるため、顧客からの質問を受ける必要もなくなる。そして、なぜ皆、会社の書類をすべて読んでくれないのかと疑問に思う同僚たちも、もはや過去の存在になる。

 

データベースの新時代が到来し、データを構造化するという骨の折れる作業は不要になる。メモ、メール、レポートなどは自動的に解釈され、保存、索引付けされる。IT部門がクエリを実行してレポートを作成する必要もない。知りたいことをデータベースに伝えるだけで済むのだ。

 

こうした未来の姿は氷山の一角にすぎない。現在言語を理解するために人間を必要としているあらゆる手順が、今まさに根本から覆されて自動化が実現する寸前まで来ている。

 

会話は安くない

ここで少し考えてほしい。これらのアルゴリズムを見かけないのはなぜだろうか。クラウドコンピューティングでT5アルゴリズムのトレーニングを行うのに、約130万ドルのコストがかかる。嬉しいことに、Googleの研究者たちは親切にもT5モデルを私たちが使えるようにしてくれているが、このモデルを特定の目的に使用するには、実際にタスクを考慮しながら自分たちでモデルを微調整する必要があり、これには約130万ドルのコストがかかる。また、特定の問題に合わせてモデルを最適化した後でも、モデルの実行には多くのコンピューティング性能と長い時間を要する。

 

時がたつにつれて、企業がこうした微調整に対して投資するようになれば、このモデルを利用したアプリケーションが登場し始めるだろう。そして、ムーアの法則が正しければ、約5年でより複雑なアプリケーションが登場するだろう。また一方で、T5アルゴリズムを超える新しいモデルも新たに開発されることが予想される。

 

2021年が始まった今、私たちはAIの最も重要な進歩と、この進歩による無限の可能性を目の当たりにしているのである。

Pieter Buteneersは、Sinchの機械学習およびAI担当エンジニアリングディレクターです。

 

この記事はVentureBeatのSinchおよびPieter Buteneersが執筆し、Industry Diveパブリッシャーネットワークを通じてライセンスされたものです。ライセンスに関するお問い合わせはlegal@industrydive.comにお願い致します。

 

※本記事の文中リンクは英語のページに遷移します。

 

Related Contents