Google DeepMind、エージェント時代に向けた新しいAIモデル Gemini 2.0 を発表
(blog.google)- Gemini 1.0は、テキスト、動画、画像、音声、コード全般にわたって情報を処理できるマルチモーダルモデルとして革新をもたらした
- Gemini 2.0はこのビジョンをさらに前進させ、世界を理解し、複数の段階を計画し、作業を実行できるエージェント型モデルへと進化した
- Gemini 2.0はGoogle検索のような主要製品に統合され、より複雑なトピックや多段階の質問にも対応できる能力を提供する
Gemini 2.0 Flashの主な特徴
- 1.5 Flashの成功を基盤に、さらに向上した性能と高速な応答時間を提供
- 1.5 Proより2倍高速で、主要ベンチマークでもより優れた性能を示す
- 画像、動画、音声といったマルチモーダル入力に加え、テキストと混在した画像生成や多言語音声合成にも対応
- Google Search、コード実行、カスタム関数などのツールをネイティブに呼び出し可能
- 開発者と信頼できるテスターに先行公開され、来年初めにより広い範囲へ提供される予定
研究プロジェクトの紹介
- Project Astra : 強化されたメモリ機能を備えた汎用AIアシスタント
- 多言語会話、Google Search/Lens/Mapsの活用、約10分間のセッションメモリなどの機能を強化
- Androidデバイスを通じて信頼できるテスターからフィードバックを収集しながら発展中
- Project Mariner : ブラウザと相互作用し、複雑な作業を支援できる研究プロトタイプ
- WebVoyagerベンチマークで83.5%の高い成果を達成
- ユーザーが最終作業を承認する前に確認を求める安全対策を内蔵
- Jules : GitHubワークフローに統合されたAIベースのコーディングエージェント
- 開発者がイシューを解決し、計画を実行する過程を支援する
AIエージェントの応用分野
- ゲーム開発会社Supercellと協力し、ゲーム内でのAIエージェント活用を探究中
- ロボティクス分野でGemini 2.0の空間推論能力を適用する実験を進めている
安全性と責任ある開発
- 新しい技術開発において、段階的かつ探索的なアプローチを採用
- AI支援レッドチームのアプローチを通じて、リスク検知と緩和策を自動生成
- Project Marinerでは、悪意のあるプロンプトインジェクションの試みからユーザーを保護する機能を実装
- ユーザーのプライバシー保護のための制御機能とセッション削除機能を提供
今後の計画
- Geminiアプリや他のGoogle製品へGemini 2.0の機能を拡張する予定
- AGIに向けた発展の過程で、安全性と責任を最優先に考慮する
1件のコメント
Hacker Newsの意見
新しい llm-gemini プラグインが Gemini 2.0 Flash モデルをサポートしている。ターミナルでの使い方が共有されている
大企業は方向転換が遅いが、いったん方向を定めれば小さな企業にはできないことを成し遂げられる
Gemini 1.5 Pro をほとんどのベンチマークで上回っている
新しい SDK が発表された。現代的なベストプラクティスに従っているように見える
Google の新しいリリースがすぐに使えるのはうれしい
"agentic" という単語は不快に感じる
Gemini 2 モデルはオーディオおよび画像生成機能をサポートしている
Gemini 2 が Chatbot Arena で 4o を上回っている
"agentic" という単語は不適切だと思う
iPhone の Safari ブラウザで Google AI Studio を通じて Gemini 2.0 Flash にアクセスした