Googleの次世代モデル: Gemini 1.5

(blog.google)

9 ポイント投稿者 GN⁺ 2024-02-16 | 3件のコメント | WhatsAppで共有

先週、Googleは最も高性能なモデルであるGemini 1.0 Ultraをリリースし、Google製品をより有用にする重要な前進を遂げた
開発者とクラウド顧客は、AI StudioとVertex AIでGemini APIを通じて1.0 Ultraを使った構築を始められる
安全性を中核に据えながらモデルの最前線を押し広げるチームは急速に進歩しており、次世代となるGemini 1.5を紹介する準備が整った
Gemini 1.5は複数の面で著しい改善を示しており、1.5 Proはより少ない計算資源で1.0 Ultraに近い品質を実現する
新世代は、モダリティをまたぐ長文脈理解におけるブレークスルーをもたらし、モデルが処理できる情報量を大幅に増やして、最大100万トークンまで一貫して実行できる

Gemini 1.5の紹介

AI分野における新たな進歩は、今後数十億人の人々にとってAIをより有用にできる可能性を持つ
Gemini 1.0を紹介して以降、テスト、洗練、機能向上を継続してきた
Gemini 1.5は著しく向上した性能を提供し、研究およびエンジニアリングの革新を基盤として、アプローチの変化を示している
新しいMixture-of-Experts (MoE)アーキテクチャを使用し、学習と提供をより効率的にしている
Gemini 1.5 Proは中規模のマルチモーダルモデルで、幅広いタスクにわたって最適化されており、これまでで最大のモデルである1.0 Ultraに近い水準の性能を発揮する
Gemini 1.5 Proは標準で128,000トークンのコンテキストウィンドウを提供するが、開発者と企業顧客はAI StudioとVertex AIを通じて最大100万トークンのコンテキストウィンドウを試すことができる

効率的なアーキテクチャ

Gemini 1.5は、TransformerとMoEアーキテクチャに関する先進的な研究を基に構築されている
従来のTransformerは1つの大きなニューラルネットワークとして動作するが、MoEモデルはより小さな「専門家」ニューラルネットワークに分かれている
入力の種類に応じて、MoEモデルはニューラルネットワーク内で最も関連性の高い専門家の経路だけを選択的に活性化するよう学習する
このような専門化により、モデルの効率は大幅に向上する

より大きなコンテキスト、より有用な機能

AIモデルの「コンテキストウィンドウ」は、情報処理に使われるトークンで構成される
モデルのコンテキストウィンドウが大きいほど、一度により多くの情報を処理できるため、出力はより一貫性があり、関連性が高く、有用になる
機械学習の革新により、1.5 Proのコンテキストウィンドウ容量をGemini 1.0の元の32,000トークンを大きく超えて拡張できた
現在、1.5 Proは一度に膨大な量の情報を処理でき、研究では最大1,000万トークンまでのテストにも成功している

性能向上

テキスト、コード、画像、音声、動画の評価を含む包括的なパネルでテストしたところ、1.5 Proは大規模言語モデル(LLMs)の開発に使われるベンチマークの87%で1.0 Proを上回った
1.5 Proは、コンテキストウィンドウが拡大しても高い性能水準を維持する

広範な倫理および安全性テスト

AI原則と強力な安全ポリシーに従い、モデルが広範な倫理および安全性テストを受けることを保証している
1.0 Ultraのリリース以降、チームはより広い公開に向けて安全に使えるよう、モデルを継続的に洗練してきた
1.5 Proの公開に先立ち、コンテンツ安全性や表象被害などの領域にわたる広範な評価を実施しており、今後もこれらのテストを継続的に拡大する予定だ

Geminiモデルで構築し実験する

新世代のGeminiモデルを、世界中の数十億人の人々、開発者、企業に対して責任を持って提供するという目標を掲げている
本日より、AI StudioとVertex AIを通じて1.5 Proの限定プレビューを開発者と企業顧客に提供する
モデルがより広い公開の準備が整えば、標準128,000トークンのコンテキストウィンドウを備えた1.5 Proを紹介する予定だ
初期テスターはテスト期間中、100万トークンのコンテキストウィンドウを無料で試せるが、この実験的機能によりレイテンシが長くなる可能性がある

GN⁺の意見

Gemini 1.5の最も重要な点は、AIモデルが処理できる情報量を大幅に増やし、より複雑で多様な作業を実行できるようにしたことだ
このモデルはAIの進歩を新たな次元へ導き、開発者や企業がより有用なモデルやアプリケーションを構築するのに役立つだろう
Googleの研究と革新がAI技術の未来をどのように形作っているかを示す事例であり、この技術は今後AIが私たちの日常にどう統合されうるかについて興味深い洞察を与えてくれる

3件のコメント

yoo04233 2024-02-17

今使っているAIの中ではGPT-4を最もよく使っていますが、AI技術はこれからますます実生活に取り入れられていきそうですね。

riskatcher 2024-02-16

Google、かなり焦ってるみたいですね。発売前からどっちが優れてるだのと情報を流し続けてるし、Ultraはいまだに多言語対応もまともじゃなくて、OpenAIの1年前の、プロンプトに Genie が必要だったレベルなのに

GN⁺ 2024-02-16

Hacker Newsの意見

ホワイトペーパーに関するコメント要約:
- 10Mトークンのコンテキスト到達方法に関する説明不足: ホワイトペーパーでは、10Mトークンのコンテキストにどのように到達したのかが言及されていない。
- RAGスタックの複雑性の低減: 10Mコンテキスト能力は、ほとんどのRAGスタックの複雑性を即座に取り除き、多くのユースケースをはるかに単純化する。
- 1.5 Proの優秀さ: 1.5 ProがGPT-4より全般的に優れていることを明確に示しており、新たなLLM-as-judgeのリーダーとして興味深い。
- 1.5 Ultraの高い能力: 1.5 Ultraは非常に高性能だと見られ、1.5 Proもすでに非常に高性能である。さまざまなテストで高得点を記録しており、低いスコアが出たテストの多くは偽陰性に行き着くと指摘している。
- 1.5 Proの可能性: 1.5 Proはワークフロー作業の基準を設定すべきである。1.0 Ultraは非常に高性能だがやや遅い。これを使うオープンモデルは品質が大きく向上しそうだ。
- コーディングテストの再検討: 新しいモジュールの作成を求めるコーディングテストをもう一度試す時期だ。
- 10Mコンテキスト到達方法への疑問: 10Mトークンにわたって完全な想起を示す音声・動画の「needle」テストが示唆するところによれば、単一の超長ベクトルではなく、圧縮のような何らかの形式があるのではないかと推測される。
技術レポートの興味深い情報:
- HumanEvalベンチマークのデータリーク問題: HumanEvalは業界標準のオープンソース評価ベンチマークだが、Webページやオープンソースコードリポジトリからの偶発的なリークを制御するのは容易ではない。Gemini 1.0 Ultraのテストデータリーク分析では、HumanEvalのテスト分割をわずか1エポックだけ含むデータセットで継続事前学習を行うと、スコアが74.4%から89.0%へと大きく向上することが示された。この増加は、JSONやHTMLのような別形式に例が含まれている場合でも持続する。研究者に対して、これらのモデルのコーディング能力を評価する際には、社内で作成した真にホールドアウトされたテスト関数の小規模なセットを常に維持し、リークリスクを最小化するよう求めている。Natural2Codeベンチマークはこのギャップを埋めるために作られており、HumanEvalと同じ形式に従うが、異なるプロンプトとテストセットを持つ。
技術レポートで注目すべき性能:
- Gemini 1.5 Proの長期コンテキスト能力: Gemini 1.5 Proの長期コンテキスト能力を研究した結果、少なくとも10Mトークンまで、次トークン予測で継続的な改善とほぼ完全な検索（>99%）が確認された。
大規模言語モデルの新たな能力:
- Kalamang言語翻訳: 世界全体で話者が200人未満のKalamang言語について、文法マニュアルを与えられたモデルは、同じ内容から学ぶ人間と同程度の水準で英語からKalamangへの翻訳方法を学習した。
Googleに対する信頼不足:
- Googleの発表への疑念: 以前に公開されたマーケティング編集動画が実際の製品を示していなかったため、Googleが出すものについては、すぐに試せる入力フォームでない限り信用しない。
Demis Hassabisに対する疑念:
- 過去の宣伝戦略への懐疑的な見方: Demis Hassabisは、過去のビデオゲーム開発時代から宣伝について懐疑的に見られている。「Infinite Polygons」は業界でジョークの種となり、彼のゲームRepublicは面白くない失敗作と見なされている。
10Mトークンの革新性:
- プロンプトサイズと品質の相関: 10Mトークンはゲームチェンジャーであり、プロンプトサイズと品質の間に目立つ低下がないのであれば非常に革新的だ。プロンプト自体を、静的な入力ではなく一種のランタイムとして考え始めることになるだろう。
Geminiに対する否定的な経験:
- Geminiの物足りない性能: Geminiを試した結果、性能には非常に失望した。ChatGPTやローカルのllamaよりはるかに劣る性能だった。GoogleのAI戦略には信頼がなく、有能な人材はすべてOpenAIかAnthropicへ移ったのではないかと考えている。
ProとUltraの違い:
- コンテキストウィンドウの大きさ: 現在、100kトークン超から100万トークン規模までのコンテキストウィンドウは、非常に興味深い機能を切り開く。RAGはそれだけの情報があれば非常に強力になりうる。
コンテキストウィンドウサイズの革新:
- 入力トークン問題の解決: 宣伝どおりに実際に機能するなら、RAGや特定の分析のためのファインチューニングの必要性を置き換えることになるだろう。入力トークンの埋め込み問題をどのように解決したのか気になる。