- 先週、Googleは最も高性能なモデルであるGemini 1.0 Ultraをリリースし、Google製品をより有用にする重要な前進を遂げた
- 開発者とクラウド顧客は、AI StudioとVertex AIでGemini APIを通じて1.0 Ultraを使った構築を始められる
- 安全性を中核に据えながらモデルの最前線を押し広げるチームは急速に進歩しており、次世代となるGemini 1.5を紹介する準備が整った
- Gemini 1.5は複数の面で著しい改善を示しており、1.5 Proはより少ない計算資源で1.0 Ultraに近い品質を実現する
- 新世代は、モダリティをまたぐ長文脈理解におけるブレークスルーをもたらし、モデルが処理できる情報量を大幅に増やして、最大100万トークンまで一貫して実行できる
Gemini 1.5の紹介
- AI分野における新たな進歩は、今後数十億人の人々にとってAIをより有用にできる可能性を持つ
- Gemini 1.0を紹介して以降、テスト、洗練、機能向上を継続してきた
- Gemini 1.5は著しく向上した性能を提供し、研究およびエンジニアリングの革新を基盤として、アプローチの変化を示している
- 新しいMixture-of-Experts (MoE)アーキテクチャを使用し、学習と提供をより効率的にしている
- Gemini 1.5 Proは中規模のマルチモーダルモデルで、幅広いタスクにわたって最適化されており、これまでで最大のモデルである1.0 Ultraに近い水準の性能を発揮する
- Gemini 1.5 Proは標準で128,000トークンのコンテキストウィンドウを提供するが、開発者と企業顧客はAI StudioとVertex AIを通じて最大100万トークンのコンテキストウィンドウを試すことができる
効率的なアーキテクチャ
- Gemini 1.5は、TransformerとMoEアーキテクチャに関する先進的な研究を基に構築されている
- 従来のTransformerは1つの大きなニューラルネットワークとして動作するが、MoEモデルはより小さな「専門家」ニューラルネットワークに分かれている
- 入力の種類に応じて、MoEモデルはニューラルネットワーク内で最も関連性の高い専門家の経路だけを選択的に活性化するよう学習する
- このような専門化により、モデルの効率は大幅に向上する
より大きなコンテキスト、より有用な機能
- AIモデルの「コンテキストウィンドウ」は、情報処理に使われるトークンで構成される
- モデルのコンテキストウィンドウが大きいほど、一度により多くの情報を処理できるため、出力はより一貫性があり、関連性が高く、有用になる
- 機械学習の革新により、1.5 Proのコンテキストウィンドウ容量をGemini 1.0の元の32,000トークンを大きく超えて拡張できた
- 現在、1.5 Proは一度に膨大な量の情報を処理でき、研究では最大1,000万トークンまでのテストにも成功している
性能向上
- テキスト、コード、画像、音声、動画の評価を含む包括的なパネルでテストしたところ、1.5 Proは大規模言語モデル(LLMs)の開発に使われるベンチマークの87%で1.0 Proを上回った
- 1.5 Proは、コンテキストウィンドウが拡大しても高い性能水準を維持する
広範な倫理および安全性テスト
- AI原則と強力な安全ポリシーに従い、モデルが広範な倫理および安全性テストを受けることを保証している
- 1.0 Ultraのリリース以降、チームはより広い公開に向けて安全に使えるよう、モデルを継続的に洗練してきた
- 1.5 Proの公開に先立ち、コンテンツ安全性や表象被害などの領域にわたる広範な評価を実施しており、今後もこれらのテストを継続的に拡大する予定だ
Geminiモデルで構築し実験する
- 新世代のGeminiモデルを、世界中の数十億人の人々、開発者、企業に対して責任を持って提供するという目標を掲げている
- 本日より、AI StudioとVertex AIを通じて1.5 Proの限定プレビューを開発者と企業顧客に提供する
- モデルがより広い公開の準備が整えば、標準128,000トークンのコンテキストウィンドウを備えた1.5 Proを紹介する予定だ
- 初期テスターはテスト期間中、100万トークンのコンテキストウィンドウを無料で試せるが、この実験的機能によりレイテンシが長くなる可能性がある
GN⁺の意見
- Gemini 1.5の最も重要な点は、AIモデルが処理できる情報量を大幅に増やし、より複雑で多様な作業を実行できるようにしたことだ
- このモデルはAIの進歩を新たな次元へ導き、開発者や企業がより有用なモデルやアプリケーションを構築するのに役立つだろう
- Googleの研究と革新がAI技術の未来をどのように形作っているかを示す事例であり、この技術は今後AIが私たちの日常にどう統合されうるかについて興味深い洞察を与えてくれる
3件のコメント
今使っているAIの中ではGPT-4を最もよく使っていますが、AI技術はこれからますます実生活に取り入れられていきそうですね。
Google、かなり焦ってるみたいですね。発売前からどっちが優れてるだのと情報を流し続けてるし、Ultraはいまだに多言語対応もまともじゃなくて、OpenAIの1年前の、プロンプトに Genie が必要だったレベルなのに
Hacker Newsの意見
ホワイトペーパーに関するコメント要約:
技術レポートの興味深い情報:
技術レポートで注目すべき性能:
大規模言語モデルの新たな能力:
Googleに対する信頼不足:
Demis Hassabisに対する疑念:
10Mトークンの革新性:
Geminiに対する否定的な経験:
ProとUltraの違い:
コンテキストウィンドウサイズの革新: