AIが電力を大量消費する理由

2021/02/25 ilene

AIが電力を大量消費する理由

アイオワ州にある、Googleのデータセンターのような施設では、大量の電気を使用している。

2020年12月、Googleから研究論文の撤回を強いられた著名なAI倫理研究者が、このことに不満を訴えた後、Googleを解雇された。その論文は、Google検索などのテキスト解析製品などに使用されている言語処理AIが持つリスクを指摘している。

 

指摘されているリスクの中には、この種のAI技術の開発に伴うCO 排出量の多さがある。ある推定によれば、1つのAIモデルの訓練で排出されるCO の量は、乗用車5台分の製造から廃車までに排出される量に匹敵するという。

 

私はAIモデルの研究開発をしている研究者であり、AI研究には膨大な電力やコストが必要であることを十二分に理解している。ではなぜ、AIモデルはそれほど大量の電力を消費するようになったのか、そして、従来のデータセンターでの計算処理とどう違うのだろうか?

 

 

今のAIのトレーニングは非効率的

データセンターで行われる従来のデータ処理作業には、ビデオストリーミングやEメール、ソーシャルメディアなどがある。AIがそれを学習して理解するまで、つまり訓練が終わるまで、大量にデータを読み取る必要がある。そのため、計算にかかる負荷がより大きくなる。

 

この訓練は人間の学習方法と比べて非常に効率が悪い。現代のAIは、人間の脳内のニューロンを模倣した数理的計算である、人工ニューラルネットワークを使用している。それぞれのニューロンの隣接ニューロンへの結合の強さは、重みと呼ばれるネットワークのパラメータである。言語理解の方法を学ぶために、人工ニューラルネットワークはランダムな重みから始めて、出力が正しい答えと一致するまで調整を行う。

 

人工ニューラルネットワークの仕組み

言語ネットワークを訓練する一般的な方法としては、ウィキペディアやニュースサイトといったウェブサイトから、いくつかの単語を隠した大量のテキストをAIに与え、隠した単語をAIに推測させる。たとえば、「my dog is cute(私の犬はかわいい)」の「cute(かわいい)」を隠す。最初のうちは、AIモデルはすべて間違えるが、何度も調整を繰り返すうちに、接続の重みが変化し始め、データのパターンを拾い始める。そして最終的に、そのネットワークは正確なものになる。

 

Bidirectional Encoder Representations from Transformers(BERT)と呼ばれる最近のあるモデルの訓練では、英語の書籍やウィキペディアの記事から33億の単語を用いた。さらに、BERTは訓練中、このデータセットを1回ではなく40回も読み込んだ。子どもの会話学習比較として挙げると、子どもは5歳までに平均で4,500万語を聞いていると考えられるが、これはBERTの3,000分の1である。

 

最適な構造の探求

言語モデルの構築に大きな費用がかかる理由は、この訓練プロセスを開発途中に何度も繰り返すためである。これは、ニューロンの数やニューロン間の接続数、学習中にパラメータをどの程度の速さで変化させるべきかなど、そのネットワークにとって最適な構造を見つけたいと研究者が考えるためだ。試す組み合わせが多いほど、ネットワークが高い精度を達成する確率が高くなる。対照的に、人間の脳は最適な構造を見つける必要がない。なぜなら、進化によって磨かれた、あらかじめ構築された構造を備えているためである。

 

企業や研究機関がAI分野でしのぎを削る中、最先端技術の向上が求められている。機械翻訳のような難易度の高いタスクにおいて、1%の精度向上は非常に大きな意味があり、良い評判やさらに良い製品につながると考えられる。しかし、その1%の向上を達成するために、研究者は最善のモデルが見つかるまで、毎回様々な構造を用いて何千回もモデルを訓練する可能性がある。

 

マサチューセッツ大学アマースト校の研究者たちは、訓練中に使用する一般的なハードウェアの消費電力を測定して、AI言語モデルの開発にかかるエネルギーコストを見積もった。すると、BERTの1回の訓練で排出されたCO の量は、ニューヨークとサンフランシスコを往復する旅客機に匹敵することがわかった。しかし、様々 な構造を使って検索することで、つまり、ニューロンの数や接続数、その他のパラメータを少しずつ変えたデータでアルゴリズムを何度も訓練することで、そのコストは315人分の乗客、つまりボーイング747ジェット1機分に相当した。

 

大きくなれば、発熱量も増える

AIモデルもまた必要以上に大きく、そして年々大きくなっている。GPT-2と呼ばれるBERTに似た最新の言語モデルは、そのネットワーク内に15億個の重みを持っている。2020年に話題を呼んだGPT-3は高精度であるがゆえに、その重みは1,750億個である。

 

ネットワークの規模が大きいほど、たとえ有用なものがそのネットワークのごく一部のみであったとしても、精度の向上につながることを研究者たちは発見した。子どもの脳内でも、ニューロンの接続が最初に追加されて、次に切られるときに似たようなことが起こるが、生物学的脳はコンピューターよりもはるかにエネルギー効率が良い。

 

AIモデルは、従来のCPUよりも多くの電力を消費するグラフィックプロセッサユニット(GPU)のような特殊なハードウェア上で訓練される。ゲーム用のノートパソコンには、たとえば『Minecraft with RTX』のプレイに必要な高度なグラフィックスの作成のために、おそらくこうしたGPUが搭載されているだろう。また、GPUを備えたノートパソコンが、通常のノートパソコンよりも発熱量が多いことに気づくだろう。

 

つまり、高性能なAIモデルを開発するということは、大量のCO を排出することになる。われわれが再生可能エネルギー源へ完全に切り替えない限り、AIの進歩は、温室効果ガスの排出削減や気候変動の鈍化といった目標と対立する可能性がある。開発コストも非常に高額になってきているため、その予算を確保できる研究室は限られており、どのようなAIモデルを開発するかという仕様設定は、そうした研究室だけが担うだろう。

 

少ないリソースでより多くの成果を上げる

一部の研究室がAIの進む道を決めることは、今後のAI研究にとってどのような意味があるのか。物事は見た目ほど厳しくはないかもしれない。より効率的な訓練方法が開発されるにつれて、訓練コストは下がる可能性がある。同様に、データセンターの電力消費量は近年爆発的に増加すると予測されていたが、データセンターの効率化、ハードウェアや冷却の効率化により、予測した事態には至っていない。

 

また、モデルの訓練コストと使用コストの間にはトレードオフの関係もあるため、訓練時により多くのエネルギーを費やしてより小さなモデルを生み出すことで、実際にモデルの使用にかかるコストが下がるかもしれない。モデルはその寿命まで何度も使用されるため、結果として大きな省エネにつながる可能性がある。

 

私の研究室では、重みを共有したり、ネットワークの複数の部分で同じ重みを使用したりすることで、AIモデルを小さくする方法を研究している。こうしたネットワークをシェイプシフター(形を自在に変える)ネットワークと呼ぶのは、小さな重みの集合を、任意の形状や構造の大きなネットワークに再構成できるためである。また、ほかの研究者によると、同じ訓練時間で重みを配分するとパフォーマンスが向上することもわかった。

 

今後、AIコミュニティはエネルギー効率の良い訓練スキームの開発にもっと投資すべきである。そうしないと、どのような種類のモデルを開発して、どのような種類のデータをAIの訓練に使用して、そのモデルを何に使用するかといった仕様設定ができる、経済的に余裕のあるごく一部の研究室がAIを独占する危険がある。

 

この記事は、Creative Commonsライセンスの下でThe Conversationから再掲載されています。オリジナルの記事はこちらでご覧ください。

 

この記事はBlockchain Newsのileneが執筆し、Industry Diveパブリッシャーネットワークを通じてライセンスされたものです。ライセンスに関するお問い合わせはlegal@industrydive.comにお願いいたします。

 

※本記事の文中リンクは英語のページに遷移します。

 

 

Related Contents