Gemini 2.0 のリリース
(developers.googleblog.com)Gemini 2.0: 開発者向け次世代 AI モデル
- Google が開発した最先端の AI モデルで、開発者が AI の未来を構築できるよう支援します。
- Gemini 1.0 のリリース以降、数百万人の開発者が Google AI Studio と Vertex AI を通じて、109 言語で Gemini を利用しています。
- Gemini 2.0 Flash Experimental により、より没入感がありインタラクティブなアプリケーション開発が可能になり、開発者に代わって作業を実行する新しいコーディングエージェントを提供します。
Gemini 2.0 Flash
- Gemini 1.5 Flash の成功を基盤に構築されたモデルで、1.5 Pro の 2 倍の速度を実現しながら、強力な性能を提供します。
- 新しいマルチモーダル出力機能とネイティブなツール利用機能を提供します。
- リアルタイムの音声および動画ストリーミングにより動的なアプリケーションを構築できる、Multimodal Live API を導入します。
- 開発者は Google AI Studio と Vertex AI で実験段階の Gemini 2.0 Flash をテストおよび検証でき、来年初めに一般提供される予定です。
主な機能:
-
性能向上:
- Gemini 1.5 Pro より強力でありながら、Flash モデルの速度と効率を維持しています。
- マルチモーダル、テキスト、コード、動画、空間理解、推論の性能が向上しました。
- 特に空間理解能力の向上により、複雑な画像内の小さな物体に対するバウンディングボックス生成の精度が向上しました。
-
新しい出力方式:
- 単一の API 呼び出しで、テキスト、音声、画像を含む統合レスポンスを生成できます。
- SynthID の不可視ウォーターマークをすべての画像および音声出力に適用し、誤情報や誤帰属の問題を軽減します。
- 多言語ネイティブ音声出力: 8 種類の高品質な音声と多様な言語・アクセントを選択し、テキスト読み上げ音声出力を細かく制御できます。
- ネイティブ画像出力: 画像を生成し、対話型のマルチターン編集をサポートすることで、以前の出力を基に画像を改善できます。テキストと画像を組み合わせて、レシピのようなマルチモーダルコンテンツを生成するのに役立ちます。
-
ネイティブなツール利用:
- エージェント体験の構築に不可欠な基本機能として、ツール利用能力を備えています。
- Google 検索やコード実行のようなツールをネイティブに呼び出せるほか、カスタム関数呼び出しを通じてサードパーティ機能も利用できます。
- Google 検索をツールとして使うことで、より事実に基づいた包括的な回答を提供し、パブリッシャーへのトラフィック増加にもつながります。
- 複数の検索を並列実行し、複数ソースから関連情報を同時に見つけることで精度を高められます。
-
Multimodal Live API:
- カメラまたは画面からの音声・動画ストリーミング入力を使って、リアルタイムのマルチモーダルアプリケーションを構築できます。
- 割り込みや音声アクティビティ検出のような自然な会話パターンをサポートします。
- 単一の API 呼び出しで複雑なユースケースに対応するため、複数のツールを統合できます。
AI コード支援の進化
- AI コード支援は、単純なコード検索から、開発者ワークフローに組み込まれた AI ベースのアシスタントへと急速に進化しています。
- Gemini 2.0 を活用したコーディングエージェントは、開発者に代わって作業を実行できます。
- コード実行ツールを備えた 2.0 Flash は、実際のソフトウェアエンジニアリング作業におけるエージェント性能を測る SWE-bench Verified で 51.8% の成功率を達成しました。
Jules: AI ベースのコードエージェント
- Python と Javascript のコーディング作業を処理する実験的な AI ベースのコードエージェントです。
- GitHub ワークフローと統合されて非同期で動作し、バグ修正やその他の時間のかかる作業を処理します。
- Jules は問題解決のための包括的な多段階計画を立て、複数ファイルを効率よく修正し、GitHub に直接修正を適用するためのプルリクエストを準備します。
Jules の利点:
- 生産性向上: 非同期コーディングにより、問題やコーディング作業を Jules に割り当てて効率を高められます。
- 進捗追跡: リアルタイム更新によって状況を把握し、注意が必要な作業を優先できます。
- 開発者による制御: Jules が生成した計画をレビューしてフィードバックを提供したり、調整を依頼したりできます。Jules が作成したコードをレビューしてプロジェクトにマージできます。
- 現在は信頼できるテスターグループ向けに提供されており、2025 年初めには他の開発者にも提供される予定です。
Colab のデータサイエンスエージェント
- データセットをアップロードし、数分でインサイトを得られる実験的なデータサイエンスエージェントを labs.google/code で提供しています。
- Colab に同じエージェント機能を統合し、Gemini 2.0 を使用します。
- 自然言語の指示で分析目標を説明すると、自動的にノートブックが生成され、研究やデータ分析を加速できます。
- 信頼できるテスタープログラムを通じて早期アクセスを提供しており、2025 年上半期に Colab ユーザーへより広く提供される予定です。
開発者支援
- Gemini 2.0 モデルは、開発者がより速く簡単に強力な AI アプリを構築できるよう支援します。
- Android Studio、Chrome DevTools、Firebase のようなプラットフォームに Gemini 2.0 を統合する予定です。
- Visual Studio Code、IntelliJ、PyCharm などの人気 IDE で、強化されたコーディング支援機能のために Gemini Code Assist から Gemini 2.0 Flash を利用できます。
1件のコメント
今は Google AI Studio と Vertex AI で利用できるようです。
モデル性能とライブ E2E 音声のレイテンシが印象的です。