
過去数ヶ月間、エロン・マスクなどのテックエグゼクティブたちは、特定のベンチマークで自社のAIモデルの性能を宣伝してきました:チャットボットアリーナ。
LMSYSとして知られる非営利団体によって運営されているチャットボットアリーナは、産業全体に一種の熱狂を巻き起こしています。モデルのリーダーボードの更新に関する投稿は、RedditやXを含む複数のプラットフォームで何百もの閲覧とリツイートを集め、公式のLMSYS Xアカウントは54,000人を超えるフォロワーを持っています。ただ昨年だけでも数百万人がこの団体のウェブサイトを訪れています。
それでも、チャットボットアリーナがこれらのモデルが本当に「優れている」かどうかを教えてくれる能力に関して、いくつかの疑問が残っています。
新しいベンチマークを求めて
ここで、LMSYSが何者か、なぜそこまで人気が出たのかについての理解を深めてみましょう。
非営利団体はわずか去年4月に設立され、カーネギーメロン、UCバークレーのスカイラブ、UCサンディエゴの学生と教員らによるプロジェクトとしてスタートしました。創設メンバーの一部は現在、Google DeepMind、マスクのxAI、Nvidiaで働いています。今日、LMSYSは主にスカイラブの関連研究者によって運営されています。
LMSYSは、ウォールアイ(OpenAIのChatGPTなど)をよりアクセスしやすくすることを使命として掲げました。しかし、設立後間もなく、AIベンチマークの状況に不満を抱いた研究者たちは、独自のテストツールを作成する価値を見出しました。
「現行のベンチマークは、最新の[モデル]のニーズを適切に満たしておらず、特にユーザの好みを評価する際には」と、研究者たちは3月に公表した技術論文で述べています。「そのため、現実世界の利用をより正確に模倣できる、人間の選好に基づいたオープンでリアルタイムな評価プラットフォームが急務です」と記載されています。
私たちは以前に書いたように、今日最も一般的に使用されているベンチマークは、一般の人がどのようにモデルとやり取りするかを正確に捉えていません。ベンチマークが探求する多くのスキル、例えばPh.D.レベルの数学問題を解くことなどは、一般の人々がClaudeなどを使用する際にはほとんど関連性がないでしょう。
LMSYSの創設者たちも同様に感じ、そして彼らは代替案を考案しました:チャットボットアリーナ、オープンエンドの実世界のタスクにおけるモデルとそのパフォーマンスの「微妙な」側面を捉えるように設計されたクラウドソーシングされたベンチマークを作成しました。

チャットボットアリーナを使用すると、ウェブ上の誰もが2つの無作為に選択された匿名モデルに質問(または質問)をすることができます。後に、これをLMSYSの将来の研究、モデルと関連プロジェクトに使用する許可を付与するToSに同意した人々は、2つの対決するモデルから好みの回答を選択することができます(または引き分けを宣言したり、「両方が悪い」と言ったりすることもできます)。その時点で、モデルの正体が明らかになります。

このフローにより、一般のユーザがどのジェネレーティブモデルに対していかなる質問をするかについて「多様な配列」が生まれる、と研究者たちは3月の論文で記述しています。「これらのデータを活用して、私たちは可能な限り信頼性が高く、サンプルを効率的に排出する統計手法のスイートを駆使して、モデルのランキングを推定します」と続けています。
Chatbot Arenaの開始以来、LMSYSはそのテストツールに数多くのオープンモデルを追加し、Mohamed bin Zayed University of Artificial Intelligence(MBZUAI)などの大学や、OpenAI、Google、Anthropic、Microsoft、Meta、Mistral、Hugging Faceなどの企業と提携して、それらのモデルをテスト用に利用できるようにしています。Chatbot Arenaには、OpenAIのGPT-4oやAnthropicのClaude 3.5 Sonnetなどを含む100以上のモデルが登場しています。
この方法で100万以上のプロンプトと回答ペアが提出され、評価され、膨大な量のランキングデータが生成されています。
偏見と透明性の欠如
3月の論文で、LMSYSの創設者たちは、チャットボットアリーナへのユーザ貢献の質問がさまざまなAIユースケースのためのベンチマークとして「十分に多様である」と主張しています。彼らは「そのユニークな価値とオープン性により、チャットボットアリーナは最も参照されるモデルリーダーボードの1つとして浮上しています」と書いています。
しかし、実際に結果はどれだけ有益なのでしょうか? それは議論の余地があります。
非営利団体アレンAI研究所の研究員であるYuchen Lin氏は、LMSYSがチャットボットアリーナで評価しているモデルの能力、知識、スキルについて完全に透明性を欠いていると述べています。3月には、LMSYSは、LMSYS-Chat-1Mというデータセットをリリースしました。このデータセットには、チャットボットアリーナでのユーザと25のモデルとの100万件の会話が含まれています。しかし、そのデータセットはその後更新されていません。
Lin氏は「評価が再現性がなく、限られたデータセットは、LMSYSによるモデルの制約を詳しく研究するのが難しくなっています」と述べています。

LMSYSがテストアプローチを詳細に説明した範囲では、研究者たちは3月の論文で、「効率的なサンプリングアルゴリズム」を活用してモデルを並列に対決させ、「ランキングの収束を加速させながら統計的妥当性を保持する方法で」と述べています。8,000件の投票が集められた後、LMSYSはチャットボットアリーナのランキングを更新し、そのしきい値は通常数日後に達成されます。
しかし、Lin氏は、投票が人々がモデルの幻覚を見極める能力、または見極められない能力を考慮しておらず、さらに彼らの好みの違いも考慮していないと感じており、そのため、彼らの投票は信頼できないと述べています。たとえば、一部のユーザはより長く、Markdownスタイルの回答を好むかもしれませんが、他のユーザはより簡潔な回答を好むかもしれません。
ここでの要点は、2人のユーザが同じ回答ペアに対して対立する回答を与える可能性があり、どちらも同様に妥当であるが、それはアプローチの価値を根本的に問うものです。最近では、LMSYSがチャットボットアリーナでモデルの応答の「スタイル」と「内容」を制御しようとしていることもあります。
Lin氏は「収集された人間の選好データはこれらの微妙な偏りを考慮しておらず、プラットフォームは『AはBよりもかなり優れている』と『AはBよりも僅かに優れている』の違いを区別しません」と述べています。「事後処理はこれらの偏りの一部を緩和できますが、人間の選好データはノイズの多いままです」とも補足しています。
AIとゲームデザインを専門とするロンドン大学王女メアリー研究員のマイク・クック氏も、Lin氏の評価に賛成しています。「1998年にもChatbot Arenaを実行して、劇的なランキング変動や大きな強力なチャットボットについて話すことができましたが、それらはひどかっただろう」と述べており、Chatbot Arenaが経験的なテストとして位置付けられているものの、それはモデルの相対的な評価に過ぎないと指摘しています。
Chatbot Arenaの頭上にかかっているより深刻な偏見は、現在のユーザーベースから来ています。
LMSYSがAIやテクノロジー業界のサークルを通じてほぼ完全に人気を集めたため、Lin氏によれば、非常に代表的な人々を引き付ける可能性は低いとのことです。彼の理論を支持する根拠として、LMSYS-Chat-1Mデータセットのトップの質問は、プログラミング、AIツール、ソフトウェアのバグ修正、アプリケーション設計などに関するものです。これは、非技術的な人々が尋ねるとは思われない種類のものです。
Lin氏は言います、「テストデータの分布は、ターゲット市場の実際のユーザーを正確に反映していないかもしれません」と述べています。「さらに、プラットフォームの評価プロセスは主に事後処理に頼っており、各クエリにさまざまなタグを付けるために使用され、それらはタスク固有の評価を開発するために使用されます。このアプローチには体系的な厳密さが欠けており、人間の選好だけに基づいて複雑な推論問題を評価するのは難しいとなっています」と述べています。

Cook氏は、Chatbot Arenaのユーザーは自己選択されているため、モデルをテストすることに