OpenAIのo3は、AIモデルが新しい方法でスケーリングされていることを示唆 - しかしコストも同様にスケーリングされている

先月、AIの創業者や投資家たちはTechCrunchに対して、AIモデルを改善する確立された方法が収益の減少を示していることを指摘し、現在「スケーリング法則の第2の時代」にいると述べました。 彼らが提案する希望のある新しい方法の1つは「テスト時のスケーリング」であり、それがOpenAIのo3モデルの性能の背後にあるようですが、それ自体に欠点があります。

AI界の多くは、OpenAIのo3モデルの発表を受けて、AIのスケーリングの進歩が「行き詰まっていない」という証拠と受け止めました。 o3モデルはベンチマークで優れた性能を発揮し、一般能力のテストであるARC-AGIのすべての他のモデルを大幅に上回り、難しい数学テストで2%以上のスコアを出したモデルは他にありませんでした。

当然、私たちのTechCrunchはo3を自分自身でテストできるまでこれらすべてを鵜呑みにするつもりはありません(これまでに試した人はほとんどいません)。 しかし、o3のリリース前から、AI界はすでに何か大きな変化が起こったと確信しています。

OpenAIのoシリーズのモデルの共同創設者であるノアム・ブラウンは、スタートアップがo1を発表してからわずか3か月でo3の印象的な進歩を発表することになったことを先週金曜日に指摘しました。

私たちはo1をたった3か月前に発表しました。 今日、私たちはo3を発表しました。 この推移は継続する理由があります。

— Noam Brown(@polynoamial) 2024年12月20日

ブラウンはツイートで、「私たちはこの推移が続くと確信しています」と述べています。

Anthropicの共同創業者ジャック・クラークは、月曜日のブログで、o3はAI「進歩が2024年よりも2025年に速くなる証拠である」と述べました(Clarkは競合他社を褒めているものの、特に資本調達能力に対してAIのスケーリング法則が続いていることを示唆することでAnthropicが利益を得ることになるので、Clarkの言葉には注意が必要です)。

来年、クラークによると、AI界はテスト時のスケーリングと従来の事前トレーニングスケーリング方法を組み合わせて、AIモデルからさらに多くのリターンを引き出すことになるでしょう。おそらく、クラークは、Anthropicや他のAIモデル提供会社が2025年に自社の推論モデルをリリースすることを示唆しているのかもしれません。先週、Googleが行ったように。

テスト時のスケーリングとは、ChatGPTの推論フェーズ中にOpenAIがより多くの計算リソースを使用していることを意味します。プロンプトを押した後の一定の時間が推論フェーズです。 裏では具体的に何が起こっているかは明確ではありません:OpenAIは、ユーザーの質問に答えるためにより多くのコンピュータチップを使用しているか、より強力な推論チップを実行しているか、またはAIが回答を生成する前にこれらのチップをより長い時間(場合によっては10〜15分)実行している可能性があります。 たしかにo3の作成方法のすべての詳細を知りませんが、これらのベンチマークは、テスト時のスケーリングがAIモデルの性能を向上させるのに役立つ可能性がある初期の兆候です。

o3はAIモデルの性能に対する新たな信念を与えるかもしれませんが、OpenAIの最新モデルは、以前には見られなかったレベルの計算を使用しており、それにより回答ごとの価格が高くなっています。

クラークは自身のブログで、「おそらく唯一の重要な注意点は、O3がそれほど良くなっている理由の1つは、推論時の実行コストが高くなったことです- テスト時のコンピュートを利用できる能力は、一部の問題ではコンピュートをよりよい回答に変えることができます」と述べています。「これは興味深いことで、AIシステムを実行するコストが何とか予測可能により少なくなったということです。以前は、単にモデルと特定の出力を生成するコストを見ることで、生成モデルを提供するのにいくらかかるかを計算することができました。」

<...truncated...>