Google I/O 2024で発表されたすべて

xguru · 2024-05-15T08:34:19+09:00

Gemini 1.5 Flashモデルの発表 Gemini 1.5 Proと同等に強力でありながら、狭く高頻度で低レイテンシな作業に最適化された新しいマルチモーダルモデル高速な応答生成により適している Gemini 1.5の翻訳、推論、コーディング能力も改善 Gemini 1.5 Proのコンテキストウィンドウ（取り込める情報量）が100万トークンから200万トークンへと2倍に拡大 Project Astra: Googleが描くStar Trek的AIの未来像マルチモーダルAIアシスタントで、デバイスのカメラを通じて見て理解し、物の位置を記憶し、ユーザーの代わりに作業を実行することを目指す今年のI/Oで最も印象的だったデモの多くに適用された単に会話することを超えて、実際にユーザーの代わりに作業を行う真のAIエージェントになることが目標 Veo: GoogleのSora風動画生成 OpenAIのSoraに対抗するGoogleの新しい生成AIモデルで、テキスト、画像、動画ベースのプロンプトを使って1080p動画を出力できる航空撮影やタイムラプスなどさまざまなスタイルで動画を制作でき、追加プロンプトで調整も可能一部のクリエイターにはYouTube動画制作に使えるよう提供されており、映画制作への活用もアピールしている GeminiのWorkspace統合次世代言語モデルのGemini 1.5 ProがDocs、Sheets、Slides、Drive、Gmailのサイドバーに統合される来月、有料購読者向けに提供予定で、Workspace内で汎用アシスタントの役割を担う Drive内のあらゆるコンテンツから情報を取得できる現在見ている文書の情報を統合してメールを作成したり、後で読んでいるメールに返信するよう知らせたりといった作業を行える Google Lensの機能拡張画像だけでなく動画でも検索できるようになる動画を撮影しながら質問すると、GoogleのAIがWeb上で関連する回答を探してくれる機能が追加された GeminiによるGoogle Photos活用今夏リリース予定の「Ask Photos」機能を通じて、ユーザーのGoogle Photosライブラリを分析し、質問に答えてくれる単に犬や猫の写真を探すだけでなく、CEOのSundar Pichaiが実演したように、自分の車のナンバープレート番号を尋ねるといった複雑な質問にも答えられる Gems: Geminiにカスタムチャットボット作成機能を追加 OpenAIのGPTと同様に、Gemsを通じてユーザーがGeminiに指示を与え、応答方法や専門分野をカスタマイズできるたとえば、毎日のモチベーションとランニング計画を提供する前向きで粘り強いランニングコーチを望むなら、まもなく可能になる予定（Gemini Advanced購読者向け） Geminiの対話能力向上新しいGemini Live機能は、Geminiとの音声チャットをより自然にすることを目指すチャットボットの声に個性が加わり、ユーザーは途中で話を遮ったり、スマートフォンのカメラを通じてリアルタイムで情報を提供するよう求めたりできる GeminiはGoogle Calendar、Tasks、Keepと統合され、情報を更新または取得でき、チラシの詳細を個人カレンダーに追加するなどマルチモーダル機能を活用する Circle to Searchの数式問題解決支援 Androidスマートフォンやタブレットで数式問題を丸で囲むと、問題解決の支援を受けられるようになった GoogleのAIは、学生が宿題をごまかすのを助けないよう問題を直接解いてはくれないが、段階ごとに分解して完了しやすくしてくれる Google検索のAI刷新今週、米国全土で「AI Overviews」（以前は「Search Generative Experience」と呼ばれていた）が提供開始予定これからは「特化型」のGeminiモデルが検索結果ページを設計し、Webから要約した回答で埋めることになる（PerplexityやArc SearchのようなAI検索ツールで見られるものに近い） AndroidのAIベース詐欺検知 Googleは、デバイス上のGemini Nano AIを使って、Androidスマートフォンが詐欺師に典型的な会話パターンなどの危険信号を検知し、リアルタイム警告を表示して詐欺電話を避けるのに役立てられるとしているこの機能の詳細は今年後半に提供予定 AndroidデバイスのAI知能向上 Googleは、Geminiがまもなくユーザーに画面上に表示された動画について質問できるようにし、自動字幕をもとに回答すると明らかにした有料のGemini Advancedユーザー向けには、PDFも取り込んで情報を提供できる Gemini on Androidに関するこれらのマルチモーダル更新やその他の更新は、今後数か月の間に提供される予定 Google ChromeにAIアシスタントを追加 Googleは、デスクトップ版Chromeに軽量版であるGemini Nanoを追加すると発表した組み込みアシスタントはデバイス上のAIを使い、Google Chrome内で直接ソーシャルメディア投稿、製品レビューなどのテキスト生成を支援する SynthID AIウォーターマーキングのアップグレード GoogleはSynthIDの機能を拡張すると明らかにした新しいVeo動画生成機で生成されたコンテンツにウォーターマークを埋め込み、AI生成動画も検出できるようになる

(theverge.com)

19 ポイント投稿者 xguru 2024-05-15 | 6件のコメント | WhatsAppで共有

Gemini 1.5 Flashモデルの発表

Gemini 1.5 Proと同等に強力でありながら、狭く高頻度で低レイテンシな作業に最適化された新しいマルチモーダルモデル
高速な応答生成により適している
Gemini 1.5の翻訳、推論、コーディング能力も改善
Gemini 1.5 Proのコンテキストウィンドウ（取り込める情報量）が100万トークンから200万トークンへと2倍に拡大

Project Astra: Googleが描くStar Trek的AIの未来像

マルチモーダルAIアシスタントで、デバイスのカメラを通じて見て理解し、物の位置を記憶し、ユーザーの代わりに作業を実行することを目指す
今年のI/Oで最も印象的だったデモの多くに適用された
単に会話することを超えて、実際にユーザーの代わりに作業を行う真のAIエージェントになることが目標

Veo: GoogleのSora風動画生成

OpenAIのSoraに対抗するGoogleの新しい生成AIモデルで、テキスト、画像、動画ベースのプロンプトを使って1080p動画を出力できる
航空撮影やタイムラプスなどさまざまなスタイルで動画を制作でき、追加プロンプトで調整も可能
一部のクリエイターにはYouTube動画制作に使えるよう提供されており、映画制作への活用もアピールしている

GeminiのWorkspace統合

次世代言語モデルのGemini 1.5 ProがDocs、Sheets、Slides、Drive、Gmailのサイドバーに統合される
来月、有料購読者向けに提供予定で、Workspace内で汎用アシスタントの役割を担う
Drive内のあらゆるコンテンツから情報を取得できる
現在見ている文書の情報を統合してメールを作成したり、後で読んでいるメールに返信するよう知らせたりといった作業を行える

Google Lensの機能拡張

画像だけでなく動画でも検索できるようになる
動画を撮影しながら質問すると、GoogleのAIがWeb上で関連する回答を探してくれる機能が追加された

GeminiによるGoogle Photos活用

今夏リリース予定の「Ask Photos」機能を通じて、ユーザーのGoogle Photosライブラリを分析し、質問に答えてくれる
単に犬や猫の写真を探すだけでなく、CEOのSundar Pichaiが実演したように、自分の車のナンバープレート番号を尋ねるといった複雑な質問にも答えられる

Gems: Geminiにカスタムチャットボット作成機能を追加

OpenAIのGPTと同様に、Gemsを通じてユーザーがGeminiに指示を与え、応答方法や専門分野をカスタマイズできる
たとえば、毎日のモチベーションとランニング計画を提供する前向きで粘り強いランニングコーチを望むなら、まもなく可能になる予定（Gemini Advanced購読者向け）

Geminiの対話能力向上

新しいGemini Live機能は、Geminiとの音声チャットをより自然にすることを目指す
チャットボットの声に個性が加わり、ユーザーは途中で話を遮ったり、スマートフォンのカメラを通じてリアルタイムで情報を提供するよう求めたりできる
GeminiはGoogle Calendar、Tasks、Keepと統合され、情報を更新または取得でき、チラシの詳細を個人カレンダーに追加するなどマルチモーダル機能を活用する

Circle to Searchの数式問題解決支援

Androidスマートフォンやタブレットで数式問題を丸で囲むと、問題解決の支援を受けられるようになった
GoogleのAIは、学生が宿題をごまかすのを助けないよう問題を直接解いてはくれないが、段階ごとに分解して完了しやすくしてくれる

Google検索のAI刷新

今週、米国全土で「AI Overviews」（以前は「Search Generative Experience」と呼ばれていた）が提供開始予定
これからは「特化型」のGeminiモデルが検索結果ページを設計し、Webから要約した回答で埋めることになる（PerplexityやArc SearchのようなAI検索ツールで見られるものに近い）

AndroidのAIベース詐欺検知

Googleは、デバイス上のGemini Nano AIを使って、Androidスマートフォンが詐欺師に典型的な会話パターンなどの危険信号を検知し、リアルタイム警告を表示して詐欺電話を避けるのに役立てられるとしている
この機能の詳細は今年後半に提供予定

AndroidデバイスのAI知能向上

Googleは、Geminiがまもなくユーザーに画面上に表示された動画について質問できるようにし、自動字幕をもとに回答すると明らかにした
有料のGemini Advancedユーザー向けには、PDFも取り込んで情報を提供できる
Gemini on Androidに関するこれらのマルチモーダル更新やその他の更新は、今後数か月の間に提供される予定

Google ChromeにAIアシスタントを追加

Googleは、デスクトップ版Chromeに軽量版であるGemini Nanoを追加すると発表した
組み込みアシスタントはデバイス上のAIを使い、Google Chrome内で直接ソーシャルメディア投稿、製品レビューなどのテキスト生成を支援する

SynthID AIウォーターマーキングのアップグレード

GoogleはSynthIDの機能を拡張すると明らかにした
新しいVeo動画生成機で生成されたコンテンツにウォーターマークを埋め込み、AI生成動画も検出できるようになる

6件のコメント

pinks 2024-05-16

チャットボットは無料で提供されるだけで十分ですし、画像や動画、音声関連は使わないので、既存製品に統合されるのはうれしいですね。

corelyai 2024-05-15

GoogleのProject Astra AIと動画生成の進化

GoogleのGeminiモデルは、コードのデバッグ、インサイトの獲得、AIアプリケーションの構築のために、150万人以上の開発者に広く利用されています。Project Astraは、動画および音声入力情報を効率的に処理できるAIエージェントと、新しい高度な生成動画モデルであるVoを導入しています。Voは、テキスト、画像、動画プロンプトから高品質な1080p動画を生成でき、かつてない創造的なコントロール機能を提供します。GoogleのDeepMindが開発したこの技術は、これまで不可能だったアイデアを実現することを目指しています。

Googleの第6世代TPUと革新的なAI刷新

Googleは、チップ当たりの計算性能が4.7倍向上した第6世代TPU「Trillium」を2024年末に発売し、クラウド顧客に提供する予定です。また、多様なワークロードを支えるため、AxionプロセッサやEnvidia Blackwell GPUをはじめとする新しいCPUとGPUも導入しており、後者は2025年初頭に提供予定です。Googleはさらに、ユーザー満足度が向上した全面刷新のAIベース検索体験であるGeminiを発表し、まず米国で提供を開始する予定です。この新しい検索モデルでは、より複雑なクエリや写真検索が可能になり、より優れたユーザー体験のために体系化された結果を提供します。

Googleの新しいAI機能と今後のイノベーション

Googleは、食品やレシピを皮切りに他のカテゴリへ拡大していく、AIが構成する新しい検索結果ページを導入します。AIは、季節のような文脈要素を使って、問題の原因や解決手順の概要を提示できます。GoogleのAIであるGeminiは、まもなく「Gem」と呼ばれるカスタムのパーソナル専門家によるライブ体験を提供する予定で、動画理解機能のためにProject Astraと統合される予定です。

Android向けの新しいAIアシスタントGeminiを紹介します

Geminiは、データプライバシーを優先しながら、オンデバイスAI体験を提供するAndroid向けの新しいAIアシスタントです。学習を支援し、難しい問題に対して段階的なガイダンスを提供するなど、状況に応じた提案を行うよう設計されています。またGeminiは、画像の検索や特定の質問への回答といった作業を、ユーザーのワークフローに自然に統合された形で支援できます。

GoogleのGeminiがスマートフォン利用に与える影響

GoogleのGeminiは、スマートフォンユーザーにAI機能を提供し、文書内の情報へ簡単にアクセスできるようにし、特定の質問に明確な回答を返します。オンデバイスの基盤モデルは、ユーザーのプライバシーを優先しながら、より高速な応答を実現し、スマートフォン体験を向上させます。まもなく登場するGemini Nanoモデルは、テキスト、視覚、音、音声言語を通じてスマートフォンが世界を理解できるようにすることで、その可能性をさらに広げるでしょう。

Corely、YouTube内の重要ポイントを10秒で！ - https://corely.ai/content/google-io-2024-everything-revealed

xguru 2024-05-15

Gemini Flash
Google DeepMind Veo

savvykang 2024-05-15

https://killedbygoogle.com
Geminiがいつこのリストに入るのか気になります。儲からないと見れば未練なく打ち切るのがGoogleの常なので、どうも愛着が持てません。