インデックス
Google は最近、Google の検索エンジンの結果から研究記事を引っ張らせたことに対して会社に不満を表明した後、主要な AI (人工知能) 倫理研究者を解雇しました。 この記事では、Google 検索やその他のテキスト分析製品で使用されている言語処理人工知能を使用するリスクが指摘されています。
挙げられているリスクの中には、 "カーボンフットプリント" この種の AI 技術を開発するとき。 いくつかの見積もりによると、AI モデルのトレーニングは、XNUMX 台の車を製造して生涯にわたって運転するのに必要な量の炭素排出量を生み出します。
AI が私たちの技術環境でますます使用される計算ツールになっているため、自問する必要があります。なぜ AI モデルはこれほどエネルギーを消費するようになったのでしょうか? 従来のデータセンター コンピューティングとの違いは何ですか?
現在の AI トレーニングは非効率的です
データセンターで行われる従来のデータ処理ジョブ (としてよく知られている) データセンター) 含む ストリーミング ビデオ、電子メール、ソーシャル メディア。 AI は、それを理解することを学習するまで、つまりトレーニングされるまで、大量のデータを読み取る必要があるため、より計算集約的です。
そのようなトレーニングは、人々が実際に学ぶ方法と比較して非効率的です。 最新の AI は、人工ニューラル ネットワーク、つまり人間の脳内のニューロンの動作をシミュレートする数学的計算を使用します。 各ニューロンの隣接するニューロンへの接続強度は、重みと呼ばれるネットワーク パラメーターです。 したがって、言語を理解することを学ぶために、ネットワークはランダムな重みから始めて、出力が正しい答えに一致するまで重みを調整します。

この画像は、単純な人工ニューラル ネットワークの動作を例示しています。 ネットワークは XNUMX つの入力を受け取ります: 入力となる犬と猫の画像 ("入力")。 モデルは、選択された画像が犬の画像であるという応答が期待されることを事前に知っています。 したがって、入力から出てくる各矢印には異なる確率の重みがあり、入力と組み合わせて使用され、最初の層のニューロンの XNUMX つに供給されます (「隠された」)。 各ニューロンには、出力ニューロンで計算される定義済みの数学的コスト関数があります ("出力")。 最も高い確率を示すニューロンが選択された出力になります。
たとえば、言語ネットワークをトレーニングする一般的な方法は、次のようなサイトから大量のテキストをフィードすることです。 Wikipedia いくつかの隠された単語を含む報道機関で、それらの単語を推測するように求めます。
例としては、「私の猫はかわいい」で、「かわいい」という言葉が隠されています。 最初は、モデルは「推測」という言葉をすべて見逃しますが、チューニングを何度も繰り返すうちに、接続の重みが変化し始め、データのパターンを拾い上げます。 このようにして、ネットワークは最終的に正確になります。 の技法の優雅な実践です。 試行錯誤.
のサイズのアイデアを得るために データセット (トレーニング データセット) によって使用される AI、Google によって開発され、呼ばれる最近のモデル トランスフォーマーからの双方向エンコーダー表現 (ベルト, 「変圧器の双方向エンコーダ表現」、ショーの名を冠したキャラクターへのオマージュ マペッツ) は、英語の本とウィキペディアの記事から 3,3 億語を使用しました。

さらに、トレーニング中、BERT はこのデータセットを 40 回だけでなく XNUMX 回も読み取りました。 残念ながら、複数回のトレーニングを実行することは、AI の学習プロセスにおいて不可欠なステップです。練習は完璧につながる」。 AIの場合、実行されるラウンドが多いほど、AIはより正確になります。
しかし、この方法を人間に使用される学習方法と比較すると、話すことを学んでいる子供は、45 歳までに 3 万語を聞くことができます。これは、BERT のトレーニング方法の XNUMX 分の XNUMX です。
正しい神経構造を求めて
これらの AI の開発中にトレーニング プロセスが数回にわたって行われるからこそ、言語モデルは次のようになります。 高過ぎ 構築する。 これは、研究者がネットワークの最適な構造、つまり、ニューロンの数、ニューロン間の接続の数、学習中にパラメーターが変化する速度などを見つけたいと考えているためです。
AI トレーニング中に試行されるさまざまな組み合わせの数が多いほど、高い精度を達成できる可能性が高くなります。 これは人間の脳で発生するプロセスとは大きく異なります。たとえば、私たちの心は周囲の世界を理解するために最適な構造を見つける必要はありません。何世紀にもわたる進化によって、あらかじめ構築された構造がすでに提示されているからです。
企業や研究者が AI の分野で競争する中、「最先端技術」を向上させるというプレッシャーがあります。これは、これまでに達成された特定の分野における最高レベルの知識を指す用語です。 機械翻訳のような困難なタスクの精度を 1% 向上させるだけでも、大きな成果と見なされ、宣伝効果やより良い製品につながります。 ただし、このわずかな改善を得るために、研究者は最適なモデルが見つかるまで、毎回異なる構造でモデルを何千回もトレーニングする必要があります。

からの研究者 マサチューセッツ大学アマースト校 のエネルギー消費量を測定することにより、言語処理用の AI モデルを開発するためのエネルギー コストを推定しました。 ハードウェア トレーニング中によく使用されます。 たとえば、BERT トレーニングのエネルギー コストは、ニューヨークとサンフランシスコを往復する乗客と同程度であることがわかりました。
ただし、異なるフレームワークを使用して検索する場合、つまり、同じセットのアルゴリズムを使用してアルゴリズムを複数回トレーニングする場合 データセット、 しかし、ニューロン、接続、その他のパラメータの数がわずかに異なるため、コストは 315 人の乗客、つまり 747 ジェット機全体に相当するものになりました。
より大きく、よりホットな AI
現在の AI モデルのもう XNUMX つの大きな問題は、必要以上に大きく、さらに悪いことに、毎年成長していることです。 と呼ばれる新しいBERTのような言語モデル GPT-2、そのネットワークには 1,5 億の重みまたはパラメーターがあります。 一方、 GPT-3精度の高い175億ペソ!
ネットワークが大きいほど精度が向上するのは当然です。 AI モデルの構造全体が結果の予測に積極的に使用されない理由を理解するための良い例えは、たとえばテキストを理解するために脳のすべての部分が使用されるわけではないため、人間の脳自体で起こることです。 違いは、生物の脳はコンピューターよりもはるかにエネルギー効率が高いということです。

AIモデルが訓練されていることを考慮する必要があります ハードウェア 従来の CPU よりも多くの電力を消費する大規模なグラフィックス プロセッシング ユニットなど。 コンピュータで通常使用されるプロセッサと比較して、グラフィックス カードがますます強力になっているため、そのような高価なアルゴリズムを適切なコンポーネントで実行して、計算、処理、およびエネルギー消費のすべての要求をサポートすることは理にかなっています。
ゲーム用 PC またはラップトップをお持ちの場合、RTX テクノロジを使用した NVIDIA グラフィックス カード (ほとんどの場合) が搭載されている可能性があります。 これらのグラフィックス カードの処理能力を活用して AI モデルをトレーニングできるのは、研究者やコンピューター スペシャリストだけではありません。DLSS テクノロジを使用するゲームも、これらのコンポーネントの計算能力を活用しています。
それでも、このタイプのグラフィックス カードを搭載した PC やラップトップは、グラフィックス カードを使用して AI モデルを実行すると、通常のマシンよりもはるかに多くの熱を発生するため、高電力消費の問題は解決しません。

これはすべて、高度な AI モデルの開発が多大なエネルギー コストを追加し、その結果、このエネルギーの生成において環境に大きな影響を与えることを意味します。 100% 再生可能エネルギー源に切り替えない限り、AI の進歩は、温室効果ガスの排出量を削減し、気候変動を遅らせるという目標に反する可能性があります。
さらに、AI モデルの開発コストも非常に高くなってきているため、少数の選択されたラボだけがそれを実行できます。 これにより、AI の最新技術と、これらのモデルが今後どのように開発されるかの定義についての知識を持つ人々の独占が生まれます。
より少ないリソースでより多くのことを行う AI モデルの構築
しかし、結局のところ、AI モデルのエネルギー コストの指数関数的な増加は、この分野の研究の将来にとって何を意味するのでしょうか? モデルが大きくなり、計算コストが高くなる傾向があるだけであるという兆候にもかかわらず、このシナリオについてより楽観的な見方を想像することは依然として可能です.
AI モデルのトレーニングのコストは、より効率的なトレーニング方法が発明されるにつれて減少する可能性があります。 同様に、 データセンター 近年爆発的に増加しましたが、これらの巨大なデータストレージセンターの効率が改善されたため、これは発生しませんでした。 ハードウェア より効率的な冷却方法。
また、AI モデルをトレーニングするコストとそれらを使用するコストの間にはトレードオフがあるため、より小さなモデルを作成するためにより多くのトレーニング時間のエネルギーを費やすと、実際にはそれらを安くすることができます。 結局のところ、モデルはその寿命の間に何度も使用されるため、エネルギーを大幅に節約できます。

効率と精度の向上に加えて、今日の AI モデルの最大の研究課題は、ネットワークのさまざまな部分で重みを共有したり、同じ重みを使用したりして、モデルを小さくする方法を探すことです。 この種のニューラル ネットワーク構造へのアプローチは、 シフターネットワークこれは、重みの小さなセットを、任意の形状または構造のより大きなネットワークに再構成できるためです。
そのことを念頭に置いて、AI コミュニティは、エネルギー効率の高いトレーニング スキームの開発にもっと投資する必要があります。 そうしないと、AI が、開発されるモデルの種類、使用されるデータの種類、トレーニングの実施方法など、AI の未来を確立する特定の企業または研究センターのグループによって支配されるリスクがあります。 . 最終的には、「人工」知能よりも「ビジネス」の方が多くなるでしょう。
ソース: ARS テキナ
Showmetech について詳しく知る
最新ニュースを電子メールで受け取るには登録してください。