GoogleはVoiceモデルChirp 3をVertex AIプラットフォームに追加

生成AIのほとんどの焦点は、テキストベースのインターフェイスに置かれ、テキスト、画像などを生成するのに使用されています。次の波は声になりそうで、急速に展開しています。最新の進展として、Googleは本日、次週にはChirp 3、つまり音声認識とHDテキスト読み上げモデルを、Vertex AI開発プラットフォームに追加することを発表しました。

先週、Googleは静かに31言語向けに8つの新しい声を展開することを発表しました。プラットフォームのユースケースは、音声アシスタントの構築、オーディオブックの作成、サポートエージェントとビデオの吹き替えの開発などが含まれます。このニュースは、ロンドンのGoogle DeepMindオフィスで行われたイベントで発表されました。

その努力は、他の人々も声AIの取り組みを前進させている時期と重なっています。先週、Sesame - 人気のある非常にリアルな「Maya」と「Miles」AIアプリの背後にあるスタートアップ - 開発者が独自のカスタマイズされたアプリやサービスをそのテクノロジーの上に構築するためのモデルの発売を発表しました。

Chirp 3の利用には、誤用を抑制するための使用制限が設けられます。「私たちは現在、安全チームとこのようないくつかの問題を協議中です」とGoogle CloudのCEOであるトーマス・クリアンは今日のニュースイベントで述べました。

ElevenLabsは、AI声サービスの拡大に数億ドルの資金調達を行っている主要なスタートアップの1つです。

このニュースは、その高価なVeo 2ビデオ生成ツールを含む、最新バージョンの旗艦モデルLLM、ジェミニ、画像生成モデルImagendとともに、Chirp 3を新しい安定版にもたらします。GoogleがChirp 3をリリースする形について、他の「ヒューマン」声を作成するAIの努力と同じくらい「リアル」になるかどうかは確認されていない状況です(特にSesameの取り組みが際立っています)。ただし、DeepMindのCEOであるデミス・ハサビスが強調したように、これはマラソンであり、短距離競走ではありません。

「近い将来...このようなアイデア(AIが)すべてに対する解答であるということが数年以内に起きるとは思えません。次数年、AGIのようなものが起こるまで数年かかると思います」と彼は述べました。「これは何かを変えるでしょう...今後の10年にわたり、中長期的なものです。この時期は興味深い瞬間の1つです。」

Googleは2021年にVertex AIを開始し、開発者がクラウド上で機械学習サービスを構築するためのプラットフォームとして立ち上げました。これは、もちろん、OpenAIのGPTサービスの発売と共に発生したAI、特に生成AIへの関心の爆発の前でした。

その後、会社は、他社(MicrosoftやAmazonなど)との遅れを取り戻す一環としてVertex AIに力を入れています。ジェミニの上に生成AIを構築するだけでなく、開発者はデータを分類したり、モデルをトレーニングしたり、モデルを本番環境に設定したりするためにVertex AIを使用できます。Google自体が作成したモデルに加えて、その壁のような庭を他のモデルに拡張するかどうかが興味深いでしょう。

Googleは何年もの間、「Chirp」音声サービスを構築しており、名称をAmazonのAlexaサービスと競合させる初期の取り組みのコードネームとして使用していました。