
長年にわたるトランスフォーマーとして知られるAI形式の支配の後、新しいアーキテクチャを探しています。
トランスフォーマーは、OpenAIのビデオ生成モデルであるSoraの基盤となっており、AnthropicのClaude、GoogleのGemini、GPT-4oなどのテキスト生成モデルの中心になっています。しかし、彼らは特に大量のデータを処理して分析する際に、通常のハードウェアで実行するだけでは特に効率的ではありません。そしてこれは、企業がトランスフォーマーの要件を満たすためにインフラストラクチャを構築および拡張する際に、急峻かつ持続不能な電力需要の増加につながっています。
今月提案された有望なアーキテクチャは、テスト時トレーニング(TTT)であり、このアーキテクチャは、スタンフォード大学、UCサンディエゴ、UCバークレー、メタの研究者らによって1年半の間に開発されました。調査チームによれば、TTTモデルはトランスフォーマーよりもはるかに多くのデータを処理できるだけでなく、それを行う際にほとんどの計算電力を消費せずに行うことができると主張しています。
トランスフォーマーの隠れた状態
トランスフォーマーの基本要素の1つは“隠れた状態”であり、基本的にはデータの長いリストです。トランスフォーマーが何かを処理している間、それは隠れた状態にエントリーを追加して、その時に処理したものを“覚えて”います。たとえば、モデルが本を読み進めている場合、隠れた状態の値は単語(または単語の一部)の表現などになります。
スタンフォード大学のポストドクであり、TTT研究の共同寄稿者であるYu Sunは、TechCrunchに話しました。「トランスフォーマーを知的な存在と考えるならば、ルックアップテーブル - つまりトランスフォーマーの脳 - はトランスフォーマーの特別な脳です。これにより、トランスフォーマーのコンテキスト内学習などの有名な機能が可能になります」と彼は述べています。
隠れた状態はトランスフォーマーを強力にする要素の一部です。しかし、これは彼らを妨げる要素でもあります。たとえば、トランスフォーマーが最近読んだ本について言及するためには、モデルはそのルックアップテーブル全体をスキャンする必要があります - ブック全体を再読するという作業と同じくらい計算量がかかります。
そのため、Sunたちのチームは、隠れた状態を機械学習モデルで置き換えるアイデアを思いつきました - ある意味、AIの中の入れ子の人形のようなものです、モデル内のモデルです。
少し技術的ですが、要点は、TTTモデルの内部機械学習モデルが、トランスフォーマーのルックアップテーブルとは異なり、追加のデータを処理するにつれて大きくならないということです。代わりに、その大きさは内部モデルに代表的な変数である重みとしてエンコードされるため、TTTモデルは高性能です。TTTモデルが処理するデータの量がどれだけ多くても、その内部モデルのサイズは変わりません。
Sunは、将来のTTTモデルは、単語から画像、オーディオレコーディング、ビデオまで、数十億のデータを効率的に処理できると信じています。それは、今日のモデルの能力をはるかに超えています。
Sunは言います。「私たちのシステムは、本についてX単語を述べることができますが、本をX回再読するという計算の複雑さがありません。Soraなどのトランスフォーマーに基づく大規模なビデオモデルは、10秒のビデオしか処理できません。なぜなら、彼らはルックアップテーブルのみの「脳」しか持っていないためです。私たちの最終目標は、人間の人生の視覚的体験に似た長いビデオを処理できるシステムを開発することです。」
TTTモデルに対する懐疑
では、TTTモデルは最終的にトランスフォーマーを超えるのでしょうか?可能性はあります。ただし、確定的に言える段階ではありません。
TTTモデルはトランスフォーマーの代替としてそのまま適用できるものではありません。研究者らは現時点では研究のために2つの小さなモデルのみを開発しましたが、TTTをいくつかの大規模なトランスフォーマーの実装と今のところ比較することが難しい方法となっています。
TTTの研究に関与していないKing's College Londonの情報学部のシニア講師であるMike Cookは、「それを提供するという主張を裏付けるデータがある場合、それは非常に興味深いイノベーションだと思いますが、それが既存のアーキテクチャよりも優れているかどうかは私にはわかりません」と述べています。「私が学部生の頃にある教授が冗談を言っていたのを思い出します:コンピュータサイエンスの問題をどのように解決しますか?さらに抽象的なレイヤーを追加します。ネットワーク内のニューラルネットワークは確かに私をそれを思い出させます」と彼は付け加えています。
とはいえ、トランスフォーマーの代替研究の加速するペースは、革新が必要であるという認識の成長を示しています。
AIスタートアップのMistralは、Codestral Mambaというモデルをリリースしました。これはトランスフォーマーの代替であるstate space models (SSMs)に基づいています。TTTモデルと同様に、SSMはトランスフォーマーよりも計算効率が向上し、より多くのデータにスケーリングできるようです。
AI21 LabsもSSMを探求しています。そして、最初のSSMのいくつかを先駆けたCartesiaも同様です。Codestral MambaやMambaおよびMamba-2で名前が付けられたものです。
これらの取り組みが成功すれば、生成AIは現在よりもさらにアクセスしやすく普及する可能性があります - それが良い方向にも悪い方向にも作用するかもしれません。