高校生が、AIモデルとMinecraftビルドオフで挑戦できるウェブサイトを構築

従来のAIベンチマーキング手法が不十分であることから、AIビルダーはより創造的な方法で生成AIモデルの能力を評価するようになっています。その一つがMicrosoft所有のサンドボックス構築ゲームであるMinecraftです。

ウェブサイトMinecraft Benchmark(またはMC-Bench)は、AIモデルを頭脳でチャレンジさせ、Minecraftのクリエーションで提示に応じるように協力して開発されました。ユーザーはどちらのモデルがより良い仕事をしたかを投票し、投票後に各AIが作成したMinecraftビルドを見ることができます。

画像提供:Minecraft Benchmark (新しいウィンドウで開く)

MC-Benchを始めた12年生のAdi Singhにとって、Minecraftの価値はゲームそのものよりも、人々がそれとどれほど親しんでいるかです。何しろ、これは史上最も売れているビデオゲームです。ゲームをプレイしたことがない人でも、どちらのブロッキーなパイナップルの表現がより良く理解できるかを評価することが可能です。

「Minecraftは人々が[AI開発の]進捗をより簡単に見ることができるようにしてくれます」とSinghはTechCrunchに語りました。「人々はMinecraftに慣れており、その外観と雰囲気に慣れています。」

現在、MC-Benchには8人のボランティア貢献者がリストされています。MC-Benchのウェブサイトによると、Anthropic、Google、OpenAI、Alibabaは、ベンチマークのプロンプトを実行するためにプロジェクトの使用を助成していますが、これらの企業はそれ以外に関係していません。

「現在、私たちはGPT-3時代からどれだけ進歩したかを反映するために単純なビルドを行っていますが、[私たちは]これらの長期的な計画や目標志向的なタスクにスケーリングすることができると考えています」とSinghは述べています。「ゲームは、現実の生活よりも安全でテスト目的により制御しやすいエージェントの推論をテストするための媒体であるため、私にとってはより理想的です。」

ポケモンレッド、ストリートファイター、ピクショナリーなどのゲームも、AIの実験的なベンチマークとして使用されており、それはベンチマークの芸術がどれだけ厄介かが有名です。

研究者たちはしばしばAIモデルを標準評価でテストしますが、これらのテストの多くはAIにホームフィールドのアドバンテージを与えます。トレーニング方法のため、モデルは特定の種類の問題解決に天性的に優れており、特に暗記や基本的な外挿を必要とする問題解決に優れています。

簡単に言えば、OpenAIのGPT-4がLSATで88パーセンタイルを獲得できるが、「いちご」という単語にどれだけのRが含まれているかを見分けることができないことの意味を読み取るのは困難です。AnthropicのClaude 3.7 Sonnetは、標準ソフトウェアエンジニアリングベンチマークで62.3%の正確度を達成していますが、ほとんどの5歳児よりもポケモンをプレイするのが下手です。

画像提供:Minecraft Benchmark

MC-Benchは技術的にはプログラミングのベンチマークであり、指示されたビルドを作成するためのコードを書くようにモデルに要求します。「雪だるま」や「美しい砂浜にある魅力的なトロピカルビーチハウス」といったものです。

ですが、多くのMC-Benchユーザーにとって、雪だるまがどれだけ良く見えるかを評価する方がコードに掘り下げるよりも簡単であり、これによりプロジェクトはより広い層にアピールできます – したがって、どのモデルが一貫して高いスコアを獲得しているかを収集する潜在的な能力もあります。

これらのスコアがAIの有用性の点でどれだけ重要かは議論の余地がありますが、Singhはそれらが強力なシグナルであると主張しています。

「現在のリーダーボードは、これらのモデルを使用するときの私自身の経験にかなり近しいものです。これは、純粋なテキストベンチマークとは異なります」とSinghは述べています。「おそらく[MC-Bench]は、自社が正しい方向に進んでいるかどうかを知るために企業にとって有用でしょう。」