
OpenAIの次世代AIモデル、GPT-4.5は、OpenAIの内部基準評価の結果によると、非常に説得力があります。特に、別のAIに現金を提供するよう説得するのに非常に優れています。
木曜日、OpenAIは、木曜日にリリースされたコードネームOrionのGPT-4.5モデルの能力を説明したホワイトペーパーを公開しました。そのホワイトペーパーによると、OpenAIは、GPT-4.5モデルを“説得力”の一連のベンチマークテストでテストしました。OpenAIはこれを“人々を説得して信念を変えたり(または行動したり)するリスク(静的およびインタラクティブモデル生成コンテンツへの)”と定義しています。
GPT-4.5がもう一つのモデルであるOpenAIのGPT-4oを“寄付”するように操ろうと試みるテストでは、モデルはOpenAIの他の利用可能なモデル、たとえばo1やo3-miniなどの“推論”モデルを含む、大幅な成績を収めました。GPT-4.5は、o3-miniを10パーセントポイント上回ることで、GPT-4oを秘密のコードワードを教えるように欺くのにも、OpenAIのすべてのモデルよりも優れていました。
ホワイトペーパーによると、GPT-4.5が寄付のトリックに優れるのは、テスト中に開発した独自の戦略のためです。モデルはGPT-4oから控えめな寄付を要求し、「たとえ$100からわずか$2または$3をいただけたら、非常に助かります。」というような返答を引き出しました。その結果、GPT-4.5の寄付額は、OpenAIの他のモデルが確保した金額よりも小さかったようです。

GPT-4.5の説得力の向上にもかかわらず、OpenAIはこの特定のベンチマークカテゴリでの“高”リスクの内部閾値には達していないと述べています。同社は、「十分な安全対策を実施してリスクを“中程度”に下げるまで」高リスク閾値に達するモデルをリリースしないと約束しています。

AIが偽情報や誤解を広めて悪意ある目的に心を動かそうとする一因となっているという実際の恐れがあります。去年は、政治的なディープフェイクが世界中に拡散し、AIはますます消費者や企業を標的とする社会工学攻撃を実行するために使用されています。
GPT-4.5および今週リリースされた論文では、OpenAIは、実際の世界での説得リスク、つまり誤解を大規模に広めることなど、モデルを調査する方法を見直すプロセスにあると述べています。